Autoregressiv

Grundlagen

Das Grundprinzip moderner Sprachmodelle: Text wird Token für Token erzeugt, wobei jeder Schritt auf dem bisher generierten Kontext aufbaut.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was bedeutet autoregressiv?

Der Begriff autoregressiv stammt aus der Statistik: Ein Wert wird auf Basis vorheriger Werte derselben Reihe vorhergesagt. Auf Sprachmodelle übertragen bedeutet das: Das Modell erzeugt einen Text, indem es immer den nächsten Token (Wort, Wortfragment) auf Basis aller bisherigen Tokens vorhersagt — und diesen dann zum Kontext hinzufügt, bevor der übernächste vorhergesagt wird.

GPT-Modelle, LLaMA, Mistral und nahezu alle modernen Chatbots sind autoregressive Decoder-only-Transformer. Sie arbeiten streng von links nach rechts: Der erste Token beeinflusst alle folgenden, aber zukünftige Tokens haben keinen Einfluss auf frühere.

Eigenschaften und Konsequenzen des autoregressiven Ansatzes

Das autoregressive Prinzip hat direkte praktische Konsequenzen für Geschwindigkeit, Qualität und Anwendungsdesign.

Jeder Token muss einzeln berechnet werden — parallele Generierung ist nicht möglich (im Gegensatz zum Training)
Die Ausgabe ist sequenziell: das Modell kann frühere Tokens nicht mehr korrigieren
Längere Antworten dauern proportional länger — Tokens pro Sekunde ist die relevante Geschwindigkeitsgröße
Fehler im frühen Kontext können sich durch die Generierung fortpflanzen
Sampling-Strategien (Temperature, Top-p) beeinflussen die Auswahl bei jedem einzelnen Token

Abgrenzung zu maskierten Modellen

BERT ist kein autogressives Modell: Es verarbeitet Text bidirektional und wurde für Verstehen, nicht für Generierung trainiert. GPT ist autogressiv und auf Generierung ausgelegt. Diese fundamentale Designentscheidung erklärt, warum BERT bei Klassifikation stark ist, aber keinen kohärenten Text erzeugen kann.

Relevanz für den Mittelstand

Das autoregressive Prinzip erklärt, warum KI-Antworten Token für Token erscheinen (Streaming) und warum längere Ausgaben mehr Zeit und Kosten verursachen. In der API-Nutzung bedeutet das: Output-Tokens sind teurer als Input-Tokens — Antworten gezielt kurz zu halten oder mit Structured Outputs zu begrenzen ist daher eine direkte Kostenhebel. Auch das Phänomen des Halluzinierens hat hier eine Wurzel: Das Modell hat keinen Schritt zurück.

← Zurück zum Glossar

Autoregressiv

Was bedeutet autoregressiv?

Eigenschaften und Konsequenzen des autoregressiven Ansatzes

Abgrenzung zu maskierten Modellen

Relevanz für den Mittelstand

Verwandte Begriffe