Throughput
PerformanceAnzahl verarbeiteter Anfragen pro Zeiteinheit. Wichtig fuer Produktionssysteme mit vielen Nutzern.
Was ist Throughput?
Throughput (Durchsatz) bezeichnet die Anzahl der Anfragen oder Tokens, die ein KI-System pro Zeiteinheit verarbeiten kann. Typische Maßeinheiten sind Anfragen pro Sekunde (RPS) oder Tokens pro Sekunde. Während Latenz misst, wie lange eine einzelne Anfrage dauert, beschreibt Throughput die Gesamtkapazität des Systems. Ein hoher Throughput bedeutet, dass viele Nutzer gleichzeitig bedient werden können, ohne dass das System überlastet wird.
In der Praxis ist Throughput eine der wichtigsten Kennzahlen für KI-Systeme im Produktivbetrieb. Ein Modell kann hervorragende Ergebnisse liefern, aber wenn es nur fünf Anfragen pro Sekunde verarbeitet, ist es für einen Dienst mit tausenden gleichzeitigen Nutzern ungeeignet.
Wie funktioniert Throughput-Optimierung?
Der Throughput eines KI-Systems hängt von mehreren Faktoren ab: der Modellgröße, der verfügbaren Hardware (insbesondere GPU-Speicher und Rechenleistung), der Batch-Größe und der Effizienz der Inferenz-Software. Durch Batching werden mehrere Anfragen gebündelt und gleichzeitig durch das Modell geleitet, was die GPU-Auslastung und damit den Throughput erheblich steigert.
Weitere Optimierungstechniken umfassen Modell-Quantisierung, bei der die Rechengenauigkeit reduziert wird, um mehr Anfragen parallel zu verarbeiten, sowie Modell-Parallelisierung über mehrere GPUs. Spezielle Inferenz-Engines wie vLLM oder TensorRT-LLM nutzen fortgeschrittene Techniken wie Continuous Batching und PagedAttention, um den Throughput um ein Vielfaches zu steigern. Auch die Wahl kleinerer, spezialisierter Modelle statt großer Allzweckmodelle kann den Durchsatz verbessern.
Warum ist Throughput wichtig?
Throughput bestimmt direkt die Betriebskosten und Skalierbarkeit einer KI-Lösung. Mehr Throughput pro GPU bedeutet weniger Hardware-Bedarf und niedrigere Kosten pro Anfrage. Für Unternehmen ist es entscheidend, bei der Anbieterauswahl nicht nur auf die Modellqualität zu achten, sondern auch auf den Throughput unter realistischer Last. Ein System, das bei Lastspitzen einbricht, verursacht schlechte Nutzererfahrungen und Umsatzverluste.
Verwandte Begriffe
Latenz · Inferenz · VRAM · Quantisierung · Streaming
← Zurück zum Glossar