Streaming

API

Token-fuer-Token-Ausgabe statt komplette Antwort am Ende. Fuehlt sich schneller an, verbessert UX.

Was ist Streaming?

Streaming bezeichnet im KI-Kontext die Token-für-Token-Ausgabe einer Modellantwort in Echtzeit, anstatt die gesamte Antwort erst nach vollständiger Berechnung auszuliefern. Wenn Sie ChatGPT oder ähnliche Tools nutzen und sehen, wie der Text Wort für Wort erscheint, erleben Sie Streaming in Aktion. Technisch sendet der Server dabei jedes generierte Token sofort an den Client, typischerweise über Server-Sent Events (SSE) oder WebSocket-Verbindungen.

Ohne Streaming müsste ein Nutzer bei einer längeren Antwort mehrere Sekunden oder sogar Minuten auf eine leere Seite starren, bis die komplette Antwort fertig berechnet ist. Streaming löst dieses Problem, indem es die wahrgenommene Wartezeit drastisch reduziert.

Wie funktioniert Streaming?

Ein Large Language Model generiert Text grundsätzlich Token für Token. Bei einer klassischen API-Anfrage ohne Streaming wartet der Server, bis alle Tokens erzeugt sind, und sendet dann die vollständige Antwort als ein einziges Datenpaket. Beim Streaming wird hingegen jedes Token unmittelbar nach seiner Erzeugung an den Client übertragen.

Auf API-Ebene wird Streaming meist durch einen Parameter wie stream: true aktiviert. Der Server hält dann die HTTP-Verbindung offen und sendet die Tokens als fortlaufenden Datenstrom. Der Client empfängt diese Fragmente und stellt sie sofort dar. Die Gesamtdauer der Berechnung bleibt gleich, aber der Nutzer sieht bereits nach Millisekunden die ersten Ergebnisse und kann frühzeitig erkennen, ob die Antwort in die richtige Richtung geht.

Warum ist Streaming wichtig?

Für Unternehmen, die KI-gestützte Anwendungen entwickeln, ist Streaming ein entscheidender UX-Faktor. Studien zeigen, dass Nutzer eine schrittweise erscheinende Antwort als deutlich schneller empfinden, selbst wenn die tatsächliche Gesamtzeit identisch ist. In Kundenservice-Chatbots, internen Assistenten oder Recherchetools sorgt Streaming für eine natürlichere Interaktion. Zudem ermöglicht es Nutzern, eine unpassende Antwort frühzeitig abzubrechen und Rechenkosten zu sparen.

Verwandte Begriffe

Token · Throughput · Latenz · Inferenz · API

← Zurück zum Glossar