Next-Token-Prediction

Grundlagen

Die zentrale Trainingsaufgabe von GPT-Modellen: Aus riesigen Textmengen lernen, welches Token als nächstes folgt — und dabei implizit Sprache verstehen.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Wie entsteht Intelligenz aus einer einfachen Aufgabe?

Next-Token-Prediction (NTP) klingt trivial: Gegeben den bisherigen Text, sage das nächste Wort voraus. Doch um diese Aufgabe auf Billionen von Texten gut zu lösen, muss ein Modell implizit Grammatik, Fakten, Logik, Kausalität, Schreibstile und Konventionen lernen — nicht weil es dazu explizit angeleitet wird, sondern weil all dieses Wissen nötig ist, um den nächsten Token korrekt vorherzusagen.

Das ist die fundamentale Hypothese hinter modernen LLMs: Die Aufgabe ist einfach, aber komplex genug, dass das Modell eine reich strukturierte interne Repräsentation der Welt aufbauen muss, um sie zu lösen. Diese Erkenntnis geht auf das Scaling-Law-Paper von Kaplan et al. (2020) zurück und hat die KI-Forschung revolutioniert.

Training: Selbstüberwachtes Lernen aus rohem Text

NTP ist eine Form des selbstüberwachten Lernens (Self-Supervised Learning): Es braucht keine menschlich annotierten Daten. Jeder Text im Internet ist automatisch ein Trainingsdatensatz — der korrekte nächste Token ist schlicht der Token, der im Originaltext steht.

  • Kein menschliches Labeling nötig: Internet, Bücher, Code sind der Datensatz
  • Verlustfunktion: Cross-Entropy-Loss zwischen vorhergesagtem und tatsächlichem Token
  • Perplexität (PPL) misst, wie gut ein Modell Next-Token-Prediction beherrscht — niedrig ist besser
  • Nach dem Pre-Training auf NTP folgt RLHF/SFT, um das Modell auf Hilfsbereitschaft auszurichten
  • Emerging Capabilities: ab bestimmter Modellgröße entstehen Fähigkeiten (Rechnen, Reasoning) ohne explizites Training

Warum das funktioniert

Um Satz für Satz die beste Fortsetzung zu lernen, muss ein Modell implizit verstehen: wer handelt, was passiert, was logisch folgt, wie Sprache funktioniert. Next-Token-Prediction ist also kein Ziel an sich, sondern ein Proxy-Ziel, das umfassendes Weltverständnis erzwingt — ein zentrales Ergebnis der KI-Forschung der letzten Jahre.

Relevanz für den Mittelstand

Das Verständnis von NTP hilft bei der realistischen Einschätzung von Sprachmodellen: Sie sind keine Datenbanken, sondern Wahrscheinlichkeitsmaschinen, trainiert auf statistischen Mustern. Sie können plausibel klingende, aber falsche Informationen erzeugen, weil sie auf Plausibilität, nicht auf Korrektheit optimiert wurden. Für geschäftskritische Anwendungen bedeutet das: Outputs müssen verifiziert werden; RAG-Systeme mit Quellenanbindung sind zuverlässiger als reine Modellgenerierung.

← Zurück zum Glossar