Tokens pro Sekunde
InferenzDurchsatzmetrik für LLM-Inferenz: Ausgabe-Token pro Sekunde – bestimmt Kosten, Kapazität und Nutzererfahrung bei der Textgenerierung.
Definition und Abgrenzung
Tokens pro Sekunde (tok/s oder TPS) gibt an, wie viele Ausgabe-Token ein Modell pro Sekunde generiert, nachdem das erste Token produziert wurde (Decode-Phase). Die Metrik ist damit klar von der Time to First Token (TTFT) zu trennen, die die Prefill-Phase misst.
TPS wird entweder als User-TPS (Token-Rate aus Sicht eines einzelnen Nutzers) oder als System-TPS (Gesamt-Token-Rate über alle parallelen Anfragen) angegeben. Für Kostenkalkulation ist System-TPS entscheidend, für die Nutzererfahrung User-TPS.
Einflussfaktoren und Benchmarks
Die Token-Rate hängt von Modellgröße, Quantisierungsgrad, GPU-Typ und Batch-Größe ab. Typische Richtwerte: 30-50 tok/s User-TPS gelten für interaktive Nutzung als komfortabel (menschliche Lesegeschwindigkeit ca. 5-7 tok/s). Viele LLM-Benchmarks wie lm-evaluation-harness messen zusätzlich die durchschnittliche Latenz pro Token.
- Höhere Quantisierung (z. B. INT4) steigert TPS, kann aber Qualität reduzieren
- Tensor-Parallelismus über mehrere GPUs erhöht System-TPS erheblich
- Continuous Batching steigert System-TPS durch bessere GPU-Auslastung
- Verbreitete Benchmarks: llm-perf (Hugging Face), MLPerf Inference
Faustformel
Unter 10 tok/s fühlt sich ein Chatbot zäh an. 30 tok/s entsprechen angenehmer Lesegeschwindigkeit. Über 100 tok/s ist für interaktive Nutzung komfortabler Puffer.
Relevanz für den Mittelstand
Wer LLM-Kosten kalkuliert oder Hardware dimensioniert, braucht TPS als Planungsgrundlage: Aus System-TPS und erwartetem Anfragevolumen lässt sich ableiten, wie viele GPUs oder API-Kapazität nötig sind. Bei On-Premise-Deployments hilft TPS auch beim Modellvergleich: Ein kleineres, schnelleres Modell mit ähnlicher Qualität kann günstiger sein als ein großes, langsames.
← Zurück zum Glossar