Learning Rate

Hyperparameter

Schrittgröße beim Gradient Descent. Zu groß = instabil. Zu klein = langsam. Wichtigster Hyperparameter.

Was ist die Learning Rate?

Die Learning Rate (Lernrate) ist ein Hyperparameter, der bestimmt, wie stark ein KI-Modell seine Parameter bei jedem Trainingsschritt anpasst. Sie gibt die Schrittgröße vor, mit der das Modell auf erkannte Fehler reagiert. Eine zu hohe Learning Rate führt dazu, dass das Modell über das Optimum hinausschießt und instabil wird. Eine zu niedrige Learning Rate macht das Training extrem langsam oder lässt das Modell in einem schlechten lokalen Minimum stecken bleiben.

Die Learning Rate gilt als der wichtigste Hyperparameter im gesamten Trainingsprozess. Selbst ein perfekt entworfenes Modell mit idealen Daten wird scheitern, wenn die Lernrate falsch gewählt ist.

Wie funktioniert die Learning Rate?

Beim Training berechnet das Modell für jeden Batch von Trainingsdaten den Fehler (Loss) und daraus den Gradienten -- die Richtung, in der die Parameter angepasst werden sollen. Die Learning Rate bestimmt, wie weit das Modell in diese Richtung geht. Mathematisch werden die Parameter aktualisiert nach der Formel: neuer Parameter = alter Parameter minus Learning Rate mal Gradient.

In der Praxis wird die Learning Rate selten konstant gehalten. Gängige Strategien sind Learning Rate Schedules, bei denen die Rate im Verlauf des Trainings verändert wird. Ein verbreitetes Muster ist das Warmup: Die Rate startet sehr niedrig, steigt in den ersten Trainingsschritten an und sinkt dann graduell ab. Moderne Optimizer wie Adam passen die effektive Lernrate zudem automatisch pro Parameter an, basierend auf der Historie der Gradienten.

Warum ist die Learning Rate wichtig?

Für Unternehmen, die eigene Modelle trainieren oder bestehende Modelle per Fine-Tuning anpassen, ist die Learning Rate ein zentraler Erfolgsfaktor. Beim Fine-Tuning großer Sprachmodelle werden typischerweise sehr kleine Learning Rates verwendet (etwa 1e-5 bis 5e-5), weil das vortrainierte Wissen erhalten bleiben soll. Eine zu hohe Rate würde das bestehende Wissen des Modells zerstören -- ein Phänomen, das als catastrophic forgetting bekannt ist.

Auch wenn Sie KI-Lösungen nicht selbst trainieren, hilft das Verständnis der Learning Rate bei der Bewertung von KI-Dienstleistern: Fragen Sie nach der Trainingskonfiguration und den verwendeten Learning Rate Schedules. Diese Details zeigen, wie sorgfältig ein Modell entwickelt wurde.

Verwandte Begriffe

Hyperparameter · Gradient Descent · Training · Loss Function · Fine-Tuning

← Zurück zum Glossar