Speculative Decoding

Inferenz

Methode zur Inferenzbeschleunigung: Ein Hilfsmodell generiert Kandidaten-Token, das Hauptmodell prüft sie in einem Schritt.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Funktionsprinzip

Beim Speculative Decoding übernimmt ein kleines, schnelles Hilfsmodell (Draft-Modell) die Aufgabe, mehrere Token in Folge vorherzusagen. Das deutlich größere Zielmodell prüft diese Vorschläge dann in einem einzigen Vorwärtsdurchlauf: Korrekte Token werden übernommen, der erste fehlerhafte Token wird verworfen und durch die echte Ausgabe des Zielmodells ersetzt.

Da das Zielmodell viele Token auf einmal verifizieren kann, sinkt die Gesamtzahl seiner Vorwärtsdurchläufe erheblich. Die erzeugte Ausgabe ist mathematisch identisch mit der, die das Zielmodell allein produzieren würde.

Voraussetzungen und Varianten

Entscheidend für den Speedup ist die Akzeptanzrate: Je besser Draft-Modell und Zielmodell in ihrer Ausgabeverteilung übereinstimmen, desto mehr Token werden pro Runde akzeptiert. Verbreitete Varianten sind Self-Speculative-Decoding (Teile des Hauptmodells als Draft-Modell) sowie Medusa, das mehrere parallele Draft-Köpfe direkt im Zielmodell verankert.

  • Typischer Speedup: 2- bis 3-fach bei Auto-Regressionsmodellen
  • Kein Qualitätsverlust: Ausgabe ist samplingäquivalent zum Originalmodell
  • Hoher GPU-Speicherbedarf durch zwei gleichzeitig geladene Modelle
  • Besonders wirksam bei langen Ausgaben mit vorhersehbaren Passagen
  • Verfügbar in Frameworks wie vLLM, TensorRT-LLM und Hugging-Face-Transformers

Merksatz

Speculative Decoding nutzt ein kleines Hilfsmodell als schnellen Entwurfsschreiber – das große Modell streicht nur durch, was falsch ist, und spart so Rechenzeit.

Relevanz für den Mittelstand

Wer LLMs On-Premise oder auf gemieteter GPU-Infrastruktur betreibt, profitiert direkt: Weniger Vorwärtsdurchläufe bedeuten weniger GPU-Stunden und damit niedrigere Betriebskosten. Gerade bei Anwendungen mit langen Antworten – etwa Dokumentenanalyse oder Code-Generierung – kann Speculative Decoding die Antwortzeit spürbar verkürzen, ohne die Ausgabequalität zu verändern.

← Zurück zum Glossar