Residual Connection
ArchitekturArchitekturprinzip in neuronalen Netzen, das den Informationsfluss durch Abkürzungen sicherstellt und tief gestapelte Schichten trainierbar macht.
Das Problem tiefer Netzwerke
Je tiefer ein neuronales Netz — also je mehr Schichten es hat — desto leistungsfähiger kann es theoretisch sein. In der Praxis trat lange ein gravierendes Problem auf: der Gradientenschwund. Beim Training werden Fehler als Gradientensignal von hinten nach vorne durch das Netz propagiert. Bei vielen Schichten wird dieses Signal so schwach, dass die frühen Schichten kaum noch lernen.
Residual Connections, eingeführt mit dem ResNet-Paper (2015, He et al.), lösen dieses Problem elegant: Statt dass eine Schicht die Eingabe vollständig transformiert, lernt sie nur eine Korrektur (Residuum) zur unveränderlichen Eingabe. Die Eingabe wird per Abkürzung direkt zur Ausgabe addiert: Output = F(x) + x.
Bedeutung für Transformer-Modelle
In Transformern sind Residual Connections allgegenwärtig: nach jedem Attention-Block und nach jedem Feedforward-Block wird die Eingabe der Schicht zur Ausgabe addiert. Kombiniert mit Layer Normalization bilden sie das Rückgrat stabilen Trainings — ohne sie wären Modelle mit hunderten von Schichten nicht trainierbar.
- Verhindert Gradientenschwund bei tiefen Architekturen (100+ Schichten)
- Erleichtert das Training: das Netz muss nur Anpassungen, keine vollständigen Transformationen lernen
- Ermöglicht Identitätsmapping: eine Schicht kann lernen, nichts zu verändern
- Stabile Gradientenflüsse ermöglichen höhere Lernraten und kürzere Trainingszeiten
- Standard in ResNets (Computer Vision) und allen modernen Transformer-Architekturen
Intuition
Statt einem Netz zu sagen: Lerne die vollständige Abbildung von A nach B, sagt man: Lerne nur die Verbesserung von A. Das ist leichter — und wenn eine Schicht nichts Sinnvolles lernt, kann sie einfach die Eingabe unverändert durchleiten, ohne Schaden anzurichten.
Relevanz für den Mittelstand
Residual Connections sind ein stilles Fundament: Sie sind der Grund, warum große Modelle mit vielen Milliarden Parametern überhaupt trainierbar sind. Für Unternehmen, die Modelle selbst trainieren oder fine-tunen, ist das Wissen relevant: Das Fehlen oder falsche Konfigurieren von Residual Connections ist eine häufige Fehlerquelle bei Custom-Architekturen. Bei etablierten Frameworks wie PyTorch sind sie standardmäßig korrekt implementiert.
← Zurück zum Glossar