Gradient Descent

Begriff

Optimierungsalgorithmus: Folgt dem Gradienten "bergab" zum Minimum des Fehlers.

Was ist Gradient Descent?

Gradient Descent (deutsch: Gradientenabstieg) ist der zentrale Optimierungsalgorithmus beim Training von KI-Modellen. Er nutzt den Gradienten, um die Modellgewichte schrittweise so anzupassen, dass der Vorhersagefehler minimiert wird. Das Prinzip lässt sich anschaulich mit einer Wanderung im Nebel vergleichen: Man kann die Umgebung nicht überblicken, tastet aber bei jedem Schritt den Boden ab und bewegt sich in die Richtung, in der es am steilsten bergab geht – bis man im Tal angelangt ist.

Wie funktioniert Gradient Descent?

Der Algorithmus beginnt mit zufällig initialisierten Modellgewichten. In jedem Trainingsschritt berechnet er den Fehler (Loss) zwischen den Vorhersagen des Modells und den tatsächlichen Ergebnissen, bestimmt den Gradienten für jeden Parameter und passt die Gewichte in die entgegengesetzte Richtung des Gradienten an. Die Schrittgröße wird dabei durch die Learning Rate gesteuert – einen wichtigen Hyperparameter. In der Praxis wird meist Stochastic Gradient Descent (SGD) oder eine Variante wie Adam verwendet, bei der die Gradienten nicht über den gesamten Datensatz, sondern nur über kleine Teilmengen (Mini-Batches) berechnet werden. Das ist deutlich schneller und führt oft sogar zu besseren Ergebnissen.

Varianten und Herausforderungen

Es gibt zahlreiche Weiterentwicklungen des grundlegenden Gradient Descent. Adam (Adaptive Moment Estimation) passt die Learning Rate pro Parameter automatisch an und ist heute der Standard bei den meisten Deep-Learning-Projekten. Eine zentrale Herausforderung ist die Wahl der Learning Rate: Ist sie zu groß, springt der Algorithmus über das Optimum hinweg; ist sie zu klein, dauert das Training unverhältnismäßig lange oder bleibt in einem lokalen Minimum stecken. Moderne Trainingsstrategien verwenden daher Learning-Rate-Schedules, die die Schrittgröße im Verlauf des Trainings dynamisch anpassen.

Warum ist Gradient Descent wichtig?

Gradient Descent ist die Grundlage dafür, dass KI-Modelle überhaupt lernen können. Vom einfachsten neuronalen Netz bis zu LLMs mit Hunderten Milliarden Parametern – sie alle werden mit Varianten dieses Algorithmus trainiert. Wer versteht, wie Gradient Descent funktioniert, versteht das Grundprinzip hinter dem gesamten modernen Machine Learning.

Verwandte Begriffe

Gradient · Hyperparameter · Epoch · Parameter · Deep Learning · Overfitting

← Zurück zum Glossar