Constitutional AI
AlignmentAnthropics Alignment-Ansatz, der KI-Verhalten durch einen festen Regelkatalog steuert, den das Modell selbst anwendet.
Was ist Constitutional AI?
Constitutional AI (CAI) ist ein von Anthropic entwickeltes Alignment-Verfahren, das 2022 veröffentlicht wurde. Kern ist eine sogenannte Verfassung: ein Satz von Prinzipien (z. B. Hilfsbereitschaft, Ehrlichkeit, Harmlosigkeit), nach denen das Modell seine eigenen Ausgaben bewertet und überarbeitet.
CAI kombiniert zwei Phasen: Im SL-CAI-Schritt generiert das Modell eine Antwort, kritisiert sie anhand der Prinzipien und überarbeitet sie. Im RL-CAI-Schritt wird ein Reward Model aus diesen KI-generierten Präferenzen trainiert (RLAIF), das dann per PPO eingesetzt wird.
Ablauf und Prinzipien
Die Verfassung enthält meist 10–20 Prinzipien, die abstrakt formuliert sind (etwa angelehnt an die UN-Menschenrechtscharta oder spezifische Sicherheitsvorgaben). Das Modell wird angewiesen, seine Ausgaben gegen diese Prinzipien zu prüfen und Verletzungen zu korrigieren – ein Selbstkritik-Mechanismus, der skaliert.
- Transparente, nachvollziehbare Regeln statt implizitem menschlichem Urteil
- Skalierbar: KI bewertet sich selbst, keine massiven menschlichen Annotationsmengen nötig
- Basis der Claude-Modellreihe von Anthropic
- Prinzipien können für Unternehmenskontext angepasst werden
Praxisbeispiel
Anthropic instruiert Claude mit einem Prinzip wie: Bevorzuge Antworten, die keine gefährlichen Handlungen fördern. Claude prüft seine Ausgabe dagegen und überarbeitet sie, bevor das Ergebnis ausgegeben wird.
Relevanz für den Mittelstand
Wer Claude-Modelle (über AWS Bedrock oder Anthropic API) im Unternehmen einsetzt, profitiert direkt von CAI-gesichertem Verhalten. Darüber hinaus liefert das Konzept der Verfassung einen praxistauglichen Rahmen: Auch bei unternehmensinternen Fine-Tunings lassen sich explizite Verhaltensregeln definieren, anstatt nur auf implizites RLHF-Training zu vertrauen.
← Zurück zum Glossar