Vanishing Gradient
TrainingProblem bei tiefen Netzen: Gradienten werden so klein, dass fruehe Schichten nicht lernen.
Was ist Vanishing Gradient?
Das Vanishing-Gradient-Problem (verschwindender Gradient) ist ein grundlegendes Trainingsproblem bei tiefen neuronalen Netzen. Beim Training werden Fehlersignale von der Ausgabeschicht rückwärts durch das Netzwerk geleitet (Backpropagation), um die Gewichte jeder Schicht anzupassen. Bei tiefen Netzen mit vielen Schichten werden diese Gradienten bei jedem Schritt mit kleinen Werten multipliziert und schrumpfen exponentiell. Die frühen Schichten erhalten dadurch Gradienten, die praktisch null sind, und hören auf zu lernen.
Wie funktioniert das Vanishing-Gradient-Problem?
Beim Backpropagation-Algorithmus wird der Gradient des Fehlers Schicht für Schicht rückwärts berechnet. Dabei wird die Kettenregel der Differentialrechnung angewandt, was eine Multiplikation der Gradienten jeder Schicht bedeutet. Wenn die Aktivierungsfunktionen (wie Sigmoid oder Tanh) Gradienten kleiner als 1 erzeugen, wird das Produkt über viele Schichten hinweg verschwindend klein. Bei einem Netzwerk mit 20 Schichten und einem durchschnittlichen Gradienten von 0,5 pro Schicht schrumpft das Signal auf etwa 0,5^20, also rund ein Millionstel.
Die Lösung dieses Problems hat die moderne KI erst möglich gemacht. Wichtige Durchbrüche waren: die ReLU-Aktivierungsfunktion, die statt saturierender Werte konstante Gradienten liefert; Residual Connections (Skip Connections), die den Gradienten einen direkten Weg durch das Netzwerk bieten; Batch Normalization, die die Werte zwischen Schichten stabilisiert; und spezielle Architekturen wie LSTMs für Sequenzdaten. Die Transformer-Architektur nutzt mehrere dieser Techniken und kann deshalb mit hunderten von Schichten trainiert werden.
Warum ist Vanishing Gradient wichtig?
Das Vanishing-Gradient-Problem war jahrelang der Hauptgrund, warum tiefe neuronale Netze nicht funktioniert haben. Erst seine Lösung ermöglichte die Deep-Learning-Revolution ab 2012. Für Unternehmen ist dieses Konzept relevant, um zu verstehen, warum bestimmte Modellarchitekturen anderen überlegen sind und warum das Training tiefer Netze spezielle Techniken erfordert. Wenn ein Modell trotz Training nicht lernt, kann das Vanishing-Gradient-Problem eine der Ursachen sein.
Verwandte Begriffe
Training · Weight · Transformer · Aktivierungsfunktion · Deep Learning
← Zurück zum Glossar