Layer Normalization

Architektur

Eine Normalisierungstechnik in Transformer-Modellen, die Aktivierungswerte pro Schicht stabilisiert und schnelleres, robusteres Training ermöglicht.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Das Problem der internen Kovarianzverschiebung

Während des Trainings verändern sich die Gewichte aller Schichten gleichzeitig. Das führt dazu, dass die Eingabeverteilung einer Schicht sich ständig verschiebt — die Schicht muss sich also bei jedem Update neu anpassen. Dieses Problem heißt Internal Covariate Shift und verlangsamt das Training erheblich.

Layer Normalization (LayerNorm) begegnet dem, indem die Aktivierungen einer Schicht nach jeder Berechnung auf einen Mittelwert von 0 und eine Standardabweichung von 1 normiert werden. Anders als Batch Normalization (die über einen Mini-Batch normiert) arbeitet LayerNorm über alle Features eines einzelnen Samples — ideal für sequenzielle Daten wie Text.

Varianten und Platzierung in Transformern

Moderne Transformer unterscheiden sich in der Frage, wo und wie LayerNorm eingesetzt wird. Die Variante Pre-LN (Normalisierung vor dem Attention/FFN-Block) hat sich gegenüber dem originalen Post-LN als stabiler erwiesen und ist heute Standard.

  • Post-LN (Original-Transformer): Normalisierung nach Attention/FFN — weniger stabil bei tiefen Netzen
  • Pre-LN: Normalisierung vor den Blöcken — stabiler, ermöglicht größere Lernraten
  • RMSNorm (Root Mean Square Normalization): vereinfachte Variante ohne Mittelwert-Subtraktion; schneller und in LLaMA/Mistral/Qwen verwendet
  • Lernbare Parameter: LayerNorm hat trainierbare Skalierungs- (gamma) und Verschiebungs-Parameter (beta)
  • QKNorm: Normalisierung speziell für Query/Key-Vektoren in der Attention — verbessert Stabilität bei langen Kontexten

RMSNorm als moderner Standard

Viele aktuelle Modelle ersetzen klassisches LayerNorm durch RMSNorm: Es normiert nur über den quadratischen Mittelwert, ohne Mittelwert zu berechnen. Das ist 15-30 % schneller bei vergleichbarer oder besserer Trainingsqualität — ein typisches Beispiel für Effizienzgewinne durch architektonische Detailarbeit.

Relevanz für den Mittelstand

Layer Normalization ist ein unsichtbares Qualitätsmerkmal: Modelle ohne sorgfältige Normalisierungsstrategie trainieren instabiler und erreichen bei gleicher Rechenkapazität geringere Qualität. Für Teams, die Modelle selbst trainieren oder fine-tunen, ist die korrekte Normalisierungskonfiguration eine häufig unterschätzte Fehlerquelle. Bei der Auswahl von Open-Source-Modellen kann die Art der Normalisierung (RMSNorm vs. LayerNorm) Hinweise auf die Modernität der Architektur geben.

← Zurück zum Glossar