PPO

Alignment

Stabiler Reinforcement-Learning-Algorithmus, der Sprachmodelle schrittweise anhand menschlicher Belohnungssignale verbessert.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was ist PPO?

Proximal Policy Optimization ist ein Policy-Gradient-Algorithmus aus dem Reinforcement Learning, entwickelt 2017 von Schulman et al. bei OpenAI. Im Kontext großer Sprachmodelle wurde PPO zur Kernkomponente von RLHF (Reinforcement Learning from Human Feedback): Das Modell (Policy) lernt, Antworten zu generieren, die von einem Reward Model hoch bewertet werden.

PPO begrenzt dabei, wie stark sich die Policy in einem Trainingsschritt verändern darf (Clipping), was das Training stabiler macht als ältere Policy-Gradient-Methoden.

PPO im RLHF-Prozess

Der typische RLHF-Ablauf besteht aus drei Phasen: Supervised Fine-Tuning, Training eines Reward Models auf Präferenzdaten und anschließender PPO-Optimierung. In der PPO-Phase generiert das Sprachmodell Antworten, das Reward Model bewertet sie, und PPO aktualisiert die Gewichte – mit einer KL-Divergenz-Strafe, um eine zu starke Abweichung vom Ausgangsmodell zu verhindern.

Clipping-Mechanismus verhindert destabilisierende Parametersprünge
KL-Divergenz-Regularisierung hält das Modell nahe am Referenzmodell
Benötigt vier gleichzeitig gehaltene Modelle im Speicher (rechenintensiv)
Wurde für GPT-4, Claude und Gemini-Vorgänger eingesetzt
Zunehmend durch effizientere Methoden wie DPO oder GRPO ergänzt

Merksatz

PPO ist das Arbeitspferd hinter ChatGPT-artigen Modellen: Es sorgt dafür, dass das Modell hilfreiche, harmlose Antworten bevorzugt – durch schrittweise, kontrollierte Optimierung.

Relevanz für den Mittelstand

PPO-Training erfordert erhebliche GPU-Ressourcen und ML-Expertise und ist daher für die meisten KMU kein direktes Werkzeug. Relevant ist das Verständnis jedoch bei der Modellauswahl: Modelle, die mit RLHF/PPO trainiert wurden, zeigen in der Regel besseres Instruktions-Following und geringere Tendenz zu schädlichen Ausgaben – ein Qualitätsmerkmal beim Einkauf oder Einsatz kommerzieller Modelle.

← Zurück zum Glossar

PPO

Was ist PPO?

PPO im RLHF-Prozess

Merksatz

Relevanz für den Mittelstand

Verwandte Begriffe