Residual Connection

Architektur

Architekturprinzip in neuronalen Netzen, das den Informationsfluss durch Abkürzungen sicherstellt und tief gestapelte Schichten trainierbar macht.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Das Problem tiefer Netzwerke

Je tiefer ein neuronales Netz — also je mehr Schichten es hat — desto leistungsfähiger kann es theoretisch sein. In der Praxis trat lange ein gravierendes Problem auf: der Gradientenschwund. Beim Training werden Fehler als Gradientensignal von hinten nach vorne durch das Netz propagiert. Bei vielen Schichten wird dieses Signal so schwach, dass die frühen Schichten kaum noch lernen.

Residual Connections, eingeführt mit dem ResNet-Paper (2015, He et al.), lösen dieses Problem elegant: Statt dass eine Schicht die Eingabe vollständig transformiert, lernt sie nur eine Korrektur (Residuum) zur unveränderlichen Eingabe. Die Eingabe wird per Abkürzung direkt zur Ausgabe addiert: Output = F(x) + x.

Bedeutung für Transformer-Modelle

In Transformern sind Residual Connections allgegenwärtig: nach jedem Attention-Block und nach jedem Feedforward-Block wird die Eingabe der Schicht zur Ausgabe addiert. Kombiniert mit Layer Normalization bilden sie das Rückgrat stabilen Trainings — ohne sie wären Modelle mit hunderten von Schichten nicht trainierbar.

Verhindert Gradientenschwund bei tiefen Architekturen (100+ Schichten)
Erleichtert das Training: das Netz muss nur Anpassungen, keine vollständigen Transformationen lernen
Ermöglicht Identitätsmapping: eine Schicht kann lernen, nichts zu verändern
Stabile Gradientenflüsse ermöglichen höhere Lernraten und kürzere Trainingszeiten
Standard in ResNets (Computer Vision) und allen modernen Transformer-Architekturen

Intuition

Statt einem Netz zu sagen: Lerne die vollständige Abbildung von A nach B, sagt man: Lerne nur die Verbesserung von A. Das ist leichter — und wenn eine Schicht nichts Sinnvolles lernt, kann sie einfach die Eingabe unverändert durchleiten, ohne Schaden anzurichten.

Relevanz für den Mittelstand

Residual Connections sind ein stilles Fundament: Sie sind der Grund, warum große Modelle mit vielen Milliarden Parametern überhaupt trainierbar sind. Für Unternehmen, die Modelle selbst trainieren oder fine-tunen, ist das Wissen relevant: Das Fehlen oder falsche Konfigurieren von Residual Connections ist eine häufige Fehlerquelle bei Custom-Architekturen. Bei etablierten Frameworks wie PyTorch sind sie standardmäßig korrekt implementiert.

← Zurück zum Glossar

Residual Connection

Das Problem tiefer Netzwerke

Bedeutung für Transformer-Modelle

Intuition

Relevanz für den Mittelstand

Verwandte Begriffe