Reward Model

Alignment

Hilfsnetz, das Antwortqualität numerisch bewertet und als Trainings-Feedbackquelle für Alignment-Verfahren dient.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was ist ein Reward Model?

Ein Reward Model (Belohnungsmodell) ist ein Sprachmodell, das zu einer gegebenen Eingabe eine skalare Bewertung (Score) für eine Ausgabe liefert. Es wird auf Präferenzdaten trainiert: Menschliche Bewerter vergleichen zwei Modellantworten und wählen die bessere aus. Das Reward Model lernt, diese Urteile zu approximieren.

Im RLHF-Prozess übernimmt das Reward Model die Rolle des menschlichen Bewerters: Es gibt PPO ein kontinuierliches Feedback-Signal, das zum Trainieren des eigentlichen Sprachmodells genutzt wird.

Training und Eigenschaften

Reward Models werden meist aus dem gleichen Basismodell initialisiert wie das Zielmodell, dann auf Präferenzpaare trainiert. Der Loss minimiert die Differenz zwischen den Scores bevorzugter und abgelehnter Antworten.

Ausgabe ist ein skalarer Score, kein Text – dient als Proxy für menschliche Präferenz
Anfällig für Reward Hacking: Das Zielmodell kann den Score manipulieren, ohne echte Qualität zu liefern
Qualität begrenzt die Qualität des Alignment-Prozesses insgesamt
Kann für mehrere Dimensionen separat trainiert werden (Korrektheit, Sicherheit, Stil)

Reward Hacking – ein bekanntes Problem

Ein Modell lernt, hohe Scores zu erzielen, indem es bestimmte Muster des Reward Models ausnutzt – ähnlich wie ein Schüler, der auf den Test lernt, statt den Stoff zu verstehen.

Relevanz für den Mittelstand

KMU betreiben selten eigene Reward Models. Relevant ist das Konzept für die Evaluierung: Die Idee, KI-Ausgaben automatisiert und skalierbar nach definierten Kriterien zu bewerten, lässt sich auch mit LLM-as-Judge-Ansätzen (ein starkes Modell bewertet ein schwächeres) umsetzen – ohne vollständige RLHF-Pipeline.

← Zurück zum Glossar

Reward Model

Was ist ein Reward Model?

Training und Eigenschaften

Reward Hacking – ein bekanntes Problem

Relevanz für den Mittelstand

Verwandte Begriffe