Feedforward-Netzwerk

Architektur

Ein vollständig verbundenes Teilnetz in jedem Transformer-Block, das nach der Attention-Berechnung Wissen verarbeitet und speichert.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Aufbau und Funktion im Transformer

Jeder Block in einem Transformer-Modell besteht aus zwei wesentlichen Teilen: dem Attention-Mechanismus und dem Feedforward-Netzwerk (FFN). Während Attention die Beziehungen zwischen Tokens herstellt, verarbeitet das FFN jeden Token unabhängig — es kommuniziert nicht zwischen verschiedenen Positionen, sondern transformiert jeden Token-Vektor für sich.

Das FFN besteht typischerweise aus zwei linearen Transformationen mit einer Aktivierungsfunktion dazwischen. Die versteckte Dimension des FFN ist üblicherweise 4-mal größer als die Modell-Dimension (bei 4.096 Dimensions-Modell also 16.384 im FFN). Damit enthält das FFN einen erheblichen Anteil der gesamten Modellparameter — oft mehr als 60 %.

FFN als Wissenspeicher

Forschungsergebnisse (Geva et al. 2021) haben gezeigt, dass FFN-Schichten faktisches Wissen speichern: Bestimmte Neuronen im FFN aktivieren sich auf semantisch verwandte Eingaben. Das FFN verhält sich dabei wie ein assoziativer Wissensspeicher — ein Schlüssel aktiviert einen Wert, ähnlich einem Key-Value-Store.

Jeder Token wird unabhängig transformiert — kein Informationsaustausch zwischen Positionen
Die FFN-Dimension ist ein wichtiger Skalierungsparameter für Modellkapazität
Faktenwissen sitzt überwiegend im FFN; Beziehungswissen in der Attention
Mixture-of-Experts (MoE): Variante, bei der pro Token nur ein Subset des FFN aktiviert wird
GELU und SwiGLU sind die gängigsten Aktivierungsfunktionen im FFN moderner LLMs

Mixture-of-Experts als Effizienzsprung

Mixtral 8x7B und GPT-4 nutzen MoE-FFNs: Statt ein großes FFN für alle Tokens zu aktivieren, wählt ein Routing-Netzwerk pro Token 2 von 8 spezialisierten Experten-FFNs aus. Ergebnis: mehr Parameter (mehr Wissen) bei gleichem Rechenaufwand pro Token — ein entscheidender Effizienzgewinn.

Relevanz für den Mittelstand

Das Verständnis der FFN-Rolle erklärt, warum Fine-Tuning gut funktioniert: Durch gezieltes Anpassen der FFN-Gewichte kann domänenspezifisches Wissen eingebaut werden, ohne die gesamte Architektur zu verändern. Methoden wie LoRA setzen dabei direkt an den linearen Transformationen des FFN an. Für Anwendungen, bei denen Aktualität des Wissens kritisch ist, bleibt Retrieval-Augmented Generation (RAG) überlegen — das gespeicherte Wissen im FFN ist auf den Trainingsstand eingefroren.

← Zurück zum Glossar

Feedforward-Netzwerk

Aufbau und Funktion im Transformer

FFN als Wissenspeicher

Mixture-of-Experts als Effizienzsprung

Relevanz für den Mittelstand

Verwandte Begriffe