Feedforward-Netzwerk
ArchitekturEin vollständig verbundenes Teilnetz in jedem Transformer-Block, das nach der Attention-Berechnung Wissen verarbeitet und speichert.
Aufbau und Funktion im Transformer
Jeder Block in einem Transformer-Modell besteht aus zwei wesentlichen Teilen: dem Attention-Mechanismus und dem Feedforward-Netzwerk (FFN). Während Attention die Beziehungen zwischen Tokens herstellt, verarbeitet das FFN jeden Token unabhängig — es kommuniziert nicht zwischen verschiedenen Positionen, sondern transformiert jeden Token-Vektor für sich.
Das FFN besteht typischerweise aus zwei linearen Transformationen mit einer Aktivierungsfunktion dazwischen. Die versteckte Dimension des FFN ist üblicherweise 4-mal größer als die Modell-Dimension (bei 4.096 Dimensions-Modell also 16.384 im FFN). Damit enthält das FFN einen erheblichen Anteil der gesamten Modellparameter — oft mehr als 60 %.
FFN als Wissenspeicher
Forschungsergebnisse (Geva et al. 2021) haben gezeigt, dass FFN-Schichten faktisches Wissen speichern: Bestimmte Neuronen im FFN aktivieren sich auf semantisch verwandte Eingaben. Das FFN verhält sich dabei wie ein assoziativer Wissensspeicher — ein Schlüssel aktiviert einen Wert, ähnlich einem Key-Value-Store.
- Jeder Token wird unabhängig transformiert — kein Informationsaustausch zwischen Positionen
- Die FFN-Dimension ist ein wichtiger Skalierungsparameter für Modellkapazität
- Faktenwissen sitzt überwiegend im FFN; Beziehungswissen in der Attention
- Mixture-of-Experts (MoE): Variante, bei der pro Token nur ein Subset des FFN aktiviert wird
- GELU und SwiGLU sind die gängigsten Aktivierungsfunktionen im FFN moderner LLMs
Mixture-of-Experts als Effizienzsprung
Mixtral 8x7B und GPT-4 nutzen MoE-FFNs: Statt ein großes FFN für alle Tokens zu aktivieren, wählt ein Routing-Netzwerk pro Token 2 von 8 spezialisierten Experten-FFNs aus. Ergebnis: mehr Parameter (mehr Wissen) bei gleichem Rechenaufwand pro Token — ein entscheidender Effizienzgewinn.
Relevanz für den Mittelstand
Das Verständnis der FFN-Rolle erklärt, warum Fine-Tuning gut funktioniert: Durch gezieltes Anpassen der FFN-Gewichte kann domänenspezifisches Wissen eingebaut werden, ohne die gesamte Architektur zu verändern. Methoden wie LoRA setzen dabei direkt an den linearen Transformationen des FFN an. Für Anwendungen, bei denen Aktualität des Wissens kritisch ist, bleibt Retrieval-Augmented Generation (RAG) überlegen — das gespeicherte Wissen im FFN ist auf den Trainingsstand eingefroren.
← Zurück zum Glossar