Beam Search
InferenzDekodierungsstrategie für Sprachmodelle: Statt des jeweils wahrscheinlichsten Tokens werden mehrere Pfade parallel verfolgt und am Ende bewertet.
Algorithmus und Intuition
Bei der Greedy-Dekodierung wählt ein Sprachmodell in jedem Schritt den Token mit der höchsten Wahrscheinlichkeit – ein lokal optimales, aber global oft suboptimales Vorgehen. Beam Search hält stattdessen eine feste Anzahl von Kandidatensequenzen (Beam-Breite k) gleichzeitig offen.
In jedem Dekodierungsschritt werden alle k Sequenzen um ihre top-k wahrscheinlichsten Fortsetzungen erweitert. Von den resultierenden k² Kandidaten werden wieder nur die k besten behalten. Am Ende gibt der Algorithmus die Sequenz mit dem höchsten kumulierten Log-Score zurück.
Grenzen und Alternativen
Mit wachsender Beam-Breite steigt der Rechenaufwand linear, die Qualitätssteigerung aber oft nicht proportional. Bei sehr großen Beam-Breiten tendiert Beam Search zu repetitiven, überglätteten Ausgaben. In modernen LLM-Chatanwendungen hat es deshalb weitgehend Sampling-Verfahren (Top-p, Top-k, Temperature Sampling) ersetzt, die vielfältigere Ausgaben erzeugen.
- Beam-Breite 1 entspricht Greedy-Dekodierung
- Typische Breiten: 4-10 für maschinelle Übersetzung und ASR
- Length-Penalty verhindert, dass kurze Sequenzen systematisch bevorzugt werden
- Weiterhin Standard bei Aufgaben mit objektiv korrekten Antworten (Übersetzung, Transkription)
Analogie
Beam Search ist wie eine Navigation, die nicht nur die aktuell schnellste Abbiegung wählt, sondern gleichzeitig die k vielversprechendsten Routen offen hält und erst am Ziel entscheidet.
Relevanz für den Mittelstand
Beam Search ist relevant, wenn Anwendungen konsistente, reproduzierbare Ausgaben benötigen – etwa bei automatischer Dokumentenübersetzung, Transkription von Sprachaufnahmen oder strukturierter Datengenerierung. Wer LLMs für freie Texterstellung einsetzt, sollte stattdessen Sampling-Methoden bevorzugen, die lebendigere und weniger repetitive Texte erzeugen.
← Zurück zum Glossar