Reinforcement Learning
RLLernen durch Belohnung und Bestrafung. Agent probiert Aktionen, lernt aus Feedback.
Was ist Reinforcement Learning?
Reinforcement Learning (RL, auf Deutsch: bestärkendes Lernen) ist eine Form des Machine Learning, bei der ein sogenannter Agent durch Interaktion mit seiner Umgebung lernt. Statt aus gelabelten Beispielen zu lernen wie beim Supervised Learning, probiert der Agent verschiedene Aktionen aus und erhält dafür Belohnungen oder Bestrafungen. Über viele Versuche hinweg lernt er eine Strategie (Policy), die seine Gesamtbelohnung maximiert. Berühmte Durchbrüche von RL umfassen AlphaGo, das den Weltmeister im Brettspiel Go besiegte, und RLHF (Reinforcement Learning from Human Feedback), das moderne Chatbots wie ChatGPT trainiert.
Wie funktioniert Reinforcement Learning?
Ein RL-System besteht aus einem Agenten und einer Umgebung. In jedem Zeitschritt beobachtet der Agent den aktuellen Zustand der Umgebung, wählt eine Aktion, und erhält daraufhin einen neuen Zustand und eine Belohnung (oder Bestrafung). Der Agent muss dabei oft zwischen kurzfristigen und langfristigen Belohnungen abwägen -- eine Aktion, die sofort eine kleine Belohnung bringt, kann langfristig schlechter sein als eine, die zunächst keine Belohnung liefert, aber zu einem besseren Endergebnis führt. Moderne RL-Algorithmen kombinieren dieses Prinzip mit Deep Learning (Deep RL), um auch in komplexen Umgebungen mit vielen möglichen Zuständen und Aktionen effektiv zu lernen.
Warum ist Reinforcement Learning wichtig?
RL ist besonders relevant für Probleme, bei denen es keine eindeutig richtigen Antworten gibt, sondern optimale Entscheidungsfolgen gefunden werden müssen. In der Industrie wird RL für die Optimierung von Robotersteuerungen, Lagerlogistik, Energiemanagement und automatisiertem Trading eingesetzt. Für die breite Öffentlichkeit am sichtbarsten ist RLHF: Diese Technik sorgt dafür, dass Sprachmodelle nicht nur grammatisch korrekte, sondern auch hilfreiche, ehrliche und sichere Antworten geben -- ein entscheidender Schritt, der ChatGPT von einem reinen Textvorhersage-Modell zu einem nützlichen Assistenten gemacht hat.
Verwandte Begriffe
Machine Learning · Supervised Learning · Unsupervised Learning · Agent · Alignment · Fine-Tuning
Mehr dazu in unserem Blogartikel: Reinforcement Learning Überblick
← Zurück zum Glossar