Autoregressiv
GrundlagenDas Grundprinzip moderner Sprachmodelle: Text wird Token für Token erzeugt, wobei jeder Schritt auf dem bisher generierten Kontext aufbaut.
Was bedeutet autoregressiv?
Der Begriff autoregressiv stammt aus der Statistik: Ein Wert wird auf Basis vorheriger Werte derselben Reihe vorhergesagt. Auf Sprachmodelle übertragen bedeutet das: Das Modell erzeugt einen Text, indem es immer den nächsten Token (Wort, Wortfragment) auf Basis aller bisherigen Tokens vorhersagt — und diesen dann zum Kontext hinzufügt, bevor der übernächste vorhergesagt wird.
GPT-Modelle, LLaMA, Mistral und nahezu alle modernen Chatbots sind autoregressive Decoder-only-Transformer. Sie arbeiten streng von links nach rechts: Der erste Token beeinflusst alle folgenden, aber zukünftige Tokens haben keinen Einfluss auf frühere.
Eigenschaften und Konsequenzen des autoregressiven Ansatzes
Das autoregressive Prinzip hat direkte praktische Konsequenzen für Geschwindigkeit, Qualität und Anwendungsdesign.
- Jeder Token muss einzeln berechnet werden — parallele Generierung ist nicht möglich (im Gegensatz zum Training)
- Die Ausgabe ist sequenziell: das Modell kann frühere Tokens nicht mehr korrigieren
- Längere Antworten dauern proportional länger — Tokens pro Sekunde ist die relevante Geschwindigkeitsgröße
- Fehler im frühen Kontext können sich durch die Generierung fortpflanzen
- Sampling-Strategien (Temperature, Top-p) beeinflussen die Auswahl bei jedem einzelnen Token
Abgrenzung zu maskierten Modellen
BERT ist kein autogressives Modell: Es verarbeitet Text bidirektional und wurde für Verstehen, nicht für Generierung trainiert. GPT ist autogressiv und auf Generierung ausgelegt. Diese fundamentale Designentscheidung erklärt, warum BERT bei Klassifikation stark ist, aber keinen kohärenten Text erzeugen kann.
Relevanz für den Mittelstand
Das autoregressive Prinzip erklärt, warum KI-Antworten Token für Token erscheinen (Streaming) und warum längere Ausgaben mehr Zeit und Kosten verursachen. In der API-Nutzung bedeutet das: Output-Tokens sind teurer als Input-Tokens — Antworten gezielt kurz zu halten oder mit Structured Outputs zu begrenzen ist daher eine direkte Kostenhebel. Auch das Phänomen des Halluzinierens hat hier eine Wurzel: Das Modell hat keinen Schritt zurück.
← Zurück zum Glossar