Constitutional AI

Alignment

Anthropics Alignment-Ansatz, der KI-Verhalten durch einen festen Regelkatalog steuert, den das Modell selbst anwendet.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was ist Constitutional AI?

Constitutional AI (CAI) ist ein von Anthropic entwickeltes Alignment-Verfahren, das 2022 veröffentlicht wurde. Kern ist eine sogenannte Verfassung: ein Satz von Prinzipien (z. B. Hilfsbereitschaft, Ehrlichkeit, Harmlosigkeit), nach denen das Modell seine eigenen Ausgaben bewertet und überarbeitet.

CAI kombiniert zwei Phasen: Im SL-CAI-Schritt generiert das Modell eine Antwort, kritisiert sie anhand der Prinzipien und überarbeitet sie. Im RL-CAI-Schritt wird ein Reward Model aus diesen KI-generierten Präferenzen trainiert (RLAIF), das dann per PPO eingesetzt wird.

Ablauf und Prinzipien

Die Verfassung enthält meist 10–20 Prinzipien, die abstrakt formuliert sind (etwa angelehnt an die UN-Menschenrechtscharta oder spezifische Sicherheitsvorgaben). Das Modell wird angewiesen, seine Ausgaben gegen diese Prinzipien zu prüfen und Verletzungen zu korrigieren – ein Selbstkritik-Mechanismus, der skaliert.

  • Transparente, nachvollziehbare Regeln statt implizitem menschlichem Urteil
  • Skalierbar: KI bewertet sich selbst, keine massiven menschlichen Annotationsmengen nötig
  • Basis der Claude-Modellreihe von Anthropic
  • Prinzipien können für Unternehmenskontext angepasst werden

Praxisbeispiel

Anthropic instruiert Claude mit einem Prinzip wie: Bevorzuge Antworten, die keine gefährlichen Handlungen fördern. Claude prüft seine Ausgabe dagegen und überarbeitet sie, bevor das Ergebnis ausgegeben wird.

Relevanz für den Mittelstand

Wer Claude-Modelle (über AWS Bedrock oder Anthropic API) im Unternehmen einsetzt, profitiert direkt von CAI-gesichertem Verhalten. Darüber hinaus liefert das Konzept der Verfassung einen praxistauglichen Rahmen: Auch bei unternehmensinternen Fine-Tunings lassen sich explizite Verhaltensregeln definieren, anstatt nur auf implizites RLHF-Training zu vertrauen.

← Zurück zum Glossar