Gradient

Begriff

Mathematische Größe, die angibt, wie Gewichte angepasst werden müssen, um den Fehler zu reduzieren.

Was ist ein Gradient?

Ein Gradient ist eine mathematische Größe, die die Richtung und Stärke der steilsten Steigung einer Funktion angibt. Im Kontext von KI beschreibt der Gradient, in welche Richtung und wie stark die Gewichte eines Modells angepasst werden müssen, um den Vorhersagefehler zu verringern. Man kann sich den Gradienten wie einen Kompass vorstellen, der beim Training eines Modells den Weg zur besten Lösung weist.

Wie funktioniert der Gradient?

Während des Trainings macht ein Modell Vorhersagen, die mit den tatsächlichen Ergebnissen verglichen werden. Die Differenz wird als Verlust (Loss) gemessen. Der Gradient berechnet nun für jeden einzelnen Parameter des Modells, ob er erhöht oder verringert werden sollte, um diesen Verlust zu reduzieren. Dieses Verfahren heißt Backpropagation: Der Fehler wird vom Ausgang rückwärts durch alle Schichten des Modells propagiert, und für jede Schicht werden die Gradienten berechnet. Bei modernen Sprachmodellen mit Milliarden von Parametern müssen dabei Milliarden von Gradienten gleichzeitig berechnet werden – eine Aufgabe, die nur durch leistungsfähige GPUs effizient bewältigt werden kann.

Herausforderungen bei Gradienten

In der Praxis treten beim Training häufig zwei Probleme auf: Vanishing Gradients (verschwindende Gradienten), bei denen die Gradienten in tiefen Netzwerkschichten so klein werden, dass kaum noch Lernen stattfindet, und Exploding Gradients (explodierende Gradienten), bei denen die Werte unkontrolliert anwachsen und das Training instabil wird. Moderne Architekturen wie der Transformer verwenden spezielle Techniken wie Residualverbindungen und Normalisierungsschichten, um diese Probleme zu minimieren.

Warum ist der Gradient wichtig?

Der Gradient ist das mathematische Herzstück des KI-Trainings. Ohne Gradienten gäbe es keine Möglichkeit, Modelle systematisch zu verbessern – das Training wäre auf zufälliges Ausprobieren beschränkt. Das Verständnis von Gradienten hilft auch, typische Trainingsprobleme einzuordnen und die Bedeutung von Hyperparametern wie der Learning Rate zu verstehen.

Verwandte Begriffe

Gradient Descent · Parameter · Hyperparameter · Epoch · Transformer

← Zurück zum Glossar