Time to First Token
InferenzKernmetrik für LLM-Latenz: die Zeit vom Anfrage-Abschicken bis zum ersten generierten Token – bestimmt, wie schnell sich ein System für den Nutzer anfühlt.
Definition und Bedeutung
Die Time to First Token (TTFT) bezeichnet die Zeitspanne zwischen dem Absenden einer Anfrage an ein LLM und dem Empfang des allerersten generierten Tokens. Sie erfasst ausschließlich die Prefill-Phase: Der Prompt wird tokenisiert, der KV-Cache aufgebaut und das erste Ausgabe-Token berechnet.
TTFT ist die primäre Latenzmetrik für interaktive Anwendungen. Während der Nutzer auf den Beginn der Antwort wartet, läuft die TTFT-Uhr – nach dem ersten Token setzt das Streaming ein und die wahrgenommene Wartezeit sinkt erheblich.
Einflussfaktoren und Richtwerte
Die TTFT wächst mit der Prompt-Länge (mehr Token im Prefill-Schritt), der Modellgröße und der Serverlast (Queuing). Prompt Caching kann die TTFT drastisch senken, da gecachte Präfixe nicht neu berechnet werden müssen. Praktische Richtwerte: unter 200 ms gilt als ausgezeichnet für interaktive Nutzung, 200-500 ms als akzeptabel.
- Haupttreiber: Prompt-Länge und Modellgröße
- Senkung durch Prompt Caching, kleinere Modelle und Hardware-Optimierung
- Abzugrenzen von Tokens-per-Second (TPS), die die Generierungsgeschwindigkeit nach dem ersten Token messen
- Relevante Metrik für SLA-Definitionen in produktiven LLM-Deployments
Merksatz
TTFT ist der erste Eindruck: Wie lange muss ein Nutzer auf die erste Reaktion warten? Streaming macht lange Antworten erträglich – aber nur, wenn der erste Token schnell kommt.
Relevanz für den Mittelstand
Für Unternehmen, die LLM-basierte Chatbots, Assistenten oder Copiloten einsetzen, ist die TTFT entscheidend für die Nutzerakzeptanz. Bei der Evaluation von LLM-APIs oder beim Aufbau eigener Infrastruktur sollte TTFT neben den reinen Kosten als Auswahlkriterium dienen. Lange System-Prompts oder Kontextdokumente erhöhen die TTFT erheblich – Prompt Caching ist hier die effektivste Gegenmaßnahme.
← Zurück zum Glossar