DPO – Direct Preference Optimization

Alignment

Vereinfachtes Alignment-Verfahren, das menschliche Vorlieben ohne Belohnungsmodell direkt ins Training einbettet.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was ist DPO?

Direct Preference Optimization (DPO) ist ein Verfahren zum Ausrichten von Sprachmodellen an menschlichen Präferenzen. Anders als RLHF (Reinforcement Learning from Human Feedback) kommt DPO ohne ein separates Reward Model aus: Paare aus bevorzugten und abgelehnten Antworten werden direkt genutzt, um die Modellgewichte anzupassen.

Das Verfahren wurde 2023 von Rafailov et al. vorgestellt und hat sich seither als schlanke Alternative zu PPO-basiertem RLHF etabliert, weil es stabiler zu trainieren und weniger rechenintensiv ist.

Wie funktioniert DPO?

DPO reformuliert die Belohnungsmaximierung als direktes Klassifikationsproblem. Für jede Trainingsinstanz liegen zwei Modellausgaben vor – eine bevorzugte und eine abgelehnte. Das Modell lernt, die Log-Wahrscheinlichkeit der bevorzugten Antwort relativ zum Referenzmodell zu erhöhen und die der abgelehnten zu senken.

Kein separates Reward Model erforderlich – geringerer Speicher- und Rechenaufwand
Stabile Optimierung durch einfache binäre Kreuzentropie statt RL-Schleife
Benötigt Präferenzdatensätze mit Paaren (gewählt / abgelehnt)
Häufig kombiniert mit SFT als Vorschritt (SFT dann DPO)

Praxisbeispiel

Ein Unternehmen fine-tunet einen Support-Chatbot: Mitarbeitende bewerten je zwei generierte Antworten. Diese Präferenzpaare reichen für DPO aus – kein aufwendiges RL-Training nötig.

Relevanz für den Mittelstand

Für KMU, die eigene Sprachmodelle auf Unternehmenssprache oder spezifische Qualitätsanforderungen ausrichten wollen, ist DPO attraktiv: Es benötigt weniger Rechenressourcen als RLHF und lässt sich mit überschaubaren Mengen an Präferenzdaten (einige hundert bis wenige tausend Paare) durchführen. Damit ist anwendungsorientiertes Alignment auch ohne KI-Forschungsteam realistisch.

← Zurück zum Glossar

DPO – Direct Preference Optimization

Was ist DPO?

Wie funktioniert DPO?

Praxisbeispiel

Relevanz für den Mittelstand

Verwandte Begriffe