Time to First Token

Inferenz

Kernmetrik für LLM-Latenz: die Zeit vom Anfrage-Abschicken bis zum ersten generierten Token – bestimmt, wie schnell sich ein System für den Nutzer anfühlt.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Definition und Bedeutung

Die Time to First Token (TTFT) bezeichnet die Zeitspanne zwischen dem Absenden einer Anfrage an ein LLM und dem Empfang des allerersten generierten Tokens. Sie erfasst ausschließlich die Prefill-Phase: Der Prompt wird tokenisiert, der KV-Cache aufgebaut und das erste Ausgabe-Token berechnet.

TTFT ist die primäre Latenzmetrik für interaktive Anwendungen. Während der Nutzer auf den Beginn der Antwort wartet, läuft die TTFT-Uhr – nach dem ersten Token setzt das Streaming ein und die wahrgenommene Wartezeit sinkt erheblich.

Einflussfaktoren und Richtwerte

Die TTFT wächst mit der Prompt-Länge (mehr Token im Prefill-Schritt), der Modellgröße und der Serverlast (Queuing). Prompt Caching kann die TTFT drastisch senken, da gecachte Präfixe nicht neu berechnet werden müssen. Praktische Richtwerte: unter 200 ms gilt als ausgezeichnet für interaktive Nutzung, 200-500 ms als akzeptabel.

Haupttreiber: Prompt-Länge und Modellgröße
Senkung durch Prompt Caching, kleinere Modelle und Hardware-Optimierung
Abzugrenzen von Tokens-per-Second (TPS), die die Generierungsgeschwindigkeit nach dem ersten Token messen
Relevante Metrik für SLA-Definitionen in produktiven LLM-Deployments

Merksatz

TTFT ist der erste Eindruck: Wie lange muss ein Nutzer auf die erste Reaktion warten? Streaming macht lange Antworten erträglich – aber nur, wenn der erste Token schnell kommt.

Relevanz für den Mittelstand

Für Unternehmen, die LLM-basierte Chatbots, Assistenten oder Copiloten einsetzen, ist die TTFT entscheidend für die Nutzerakzeptanz. Bei der Evaluation von LLM-APIs oder beim Aufbau eigener Infrastruktur sollte TTFT neben den reinen Kosten als Auswahlkriterium dienen. Lange System-Prompts oder Kontextdokumente erhöhen die TTFT erheblich – Prompt Caching ist hier die effektivste Gegenmaßnahme.

← Zurück zum Glossar

Time to First Token

Definition und Bedeutung

Einflussfaktoren und Richtwerte

Merksatz

Relevanz für den Mittelstand

Verwandte Begriffe