Tokens pro Sekunde

Inferenz

Durchsatzmetrik für LLM-Inferenz: Ausgabe-Token pro Sekunde – bestimmt Kosten, Kapazität und Nutzererfahrung bei der Textgenerierung.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Definition und Abgrenzung

Tokens pro Sekunde (tok/s oder TPS) gibt an, wie viele Ausgabe-Token ein Modell pro Sekunde generiert, nachdem das erste Token produziert wurde (Decode-Phase). Die Metrik ist damit klar von der Time to First Token (TTFT) zu trennen, die die Prefill-Phase misst.

TPS wird entweder als User-TPS (Token-Rate aus Sicht eines einzelnen Nutzers) oder als System-TPS (Gesamt-Token-Rate über alle parallelen Anfragen) angegeben. Für Kostenkalkulation ist System-TPS entscheidend, für die Nutzererfahrung User-TPS.

Einflussfaktoren und Benchmarks

Die Token-Rate hängt von Modellgröße, Quantisierungsgrad, GPU-Typ und Batch-Größe ab. Typische Richtwerte: 30-50 tok/s User-TPS gelten für interaktive Nutzung als komfortabel (menschliche Lesegeschwindigkeit ca. 5-7 tok/s). Viele LLM-Benchmarks wie lm-evaluation-harness messen zusätzlich die durchschnittliche Latenz pro Token.

  • Höhere Quantisierung (z. B. INT4) steigert TPS, kann aber Qualität reduzieren
  • Tensor-Parallelismus über mehrere GPUs erhöht System-TPS erheblich
  • Continuous Batching steigert System-TPS durch bessere GPU-Auslastung
  • Verbreitete Benchmarks: llm-perf (Hugging Face), MLPerf Inference

Faustformel

Unter 10 tok/s fühlt sich ein Chatbot zäh an. 30 tok/s entsprechen angenehmer Lesegeschwindigkeit. Über 100 tok/s ist für interaktive Nutzung komfortabler Puffer.

Relevanz für den Mittelstand

Wer LLM-Kosten kalkuliert oder Hardware dimensioniert, braucht TPS als Planungsgrundlage: Aus System-TPS und erwartetem Anfragevolumen lässt sich ableiten, wie viele GPUs oder API-Kapazität nötig sind. Bei On-Premise-Deployments hilft TPS auch beim Modellvergleich: Ein kleineres, schnelleres Modell mit ähnlicher Qualität kann günstiger sein als ein großes, langsames.

← Zurück zum Glossar