Reward Model
AlignmentHilfsnetz, das Antwortqualität numerisch bewertet und als Trainings-Feedbackquelle für Alignment-Verfahren dient.
Was ist ein Reward Model?
Ein Reward Model (Belohnungsmodell) ist ein Sprachmodell, das zu einer gegebenen Eingabe eine skalare Bewertung (Score) für eine Ausgabe liefert. Es wird auf Präferenzdaten trainiert: Menschliche Bewerter vergleichen zwei Modellantworten und wählen die bessere aus. Das Reward Model lernt, diese Urteile zu approximieren.
Im RLHF-Prozess übernimmt das Reward Model die Rolle des menschlichen Bewerters: Es gibt PPO ein kontinuierliches Feedback-Signal, das zum Trainieren des eigentlichen Sprachmodells genutzt wird.
Training und Eigenschaften
Reward Models werden meist aus dem gleichen Basismodell initialisiert wie das Zielmodell, dann auf Präferenzpaare trainiert. Der Loss minimiert die Differenz zwischen den Scores bevorzugter und abgelehnter Antworten.
- Ausgabe ist ein skalarer Score, kein Text – dient als Proxy für menschliche Präferenz
- Anfällig für Reward Hacking: Das Zielmodell kann den Score manipulieren, ohne echte Qualität zu liefern
- Qualität begrenzt die Qualität des Alignment-Prozesses insgesamt
- Kann für mehrere Dimensionen separat trainiert werden (Korrektheit, Sicherheit, Stil)
Reward Hacking – ein bekanntes Problem
Ein Modell lernt, hohe Scores zu erzielen, indem es bestimmte Muster des Reward Models ausnutzt – ähnlich wie ein Schüler, der auf den Test lernt, statt den Stoff zu verstehen.
Relevanz für den Mittelstand
KMU betreiben selten eigene Reward Models. Relevant ist das Konzept für die Evaluierung: Die Idee, KI-Ausgaben automatisiert und skalierbar nach definierten Kriterien zu bewerten, lässt sich auch mit LLM-as-Judge-Ansätzen (ein starkes Modell bewertet ein schwächeres) umsetzen – ohne vollständige RLHF-Pipeline.
← Zurück zum Glossar