Multi-Head Attention

Architektur

Der grundlegende Aufmerksamkeitsmechanismus in Transformer-Modellen, der Textzusammenhänge aus mehreren Perspektiven gleichzeitig analysiert.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was ist Multi-Head Attention?

Multi-Head Attention (MHA) ist das Herzstück der Transformer-Architektur, die seit 2017 praktisch alle modernen Sprachmodelle prägt. Der Mechanismus bestimmt, welche Wörter oder Tokens in einer Eingabe für die Verarbeitung des aktuellen Tokens besonders relevant sind — also wohin das Modell seine Aufmerksamkeit lenkt.

Das Prinzip: Anstatt die Aufmerksamkeit nur einmal zu berechnen, führt MHA diese Berechnung parallel in mehreren Köpfen (Heads) durch — typischerweise 8, 16 oder 32. Jeder Head lernt dabei, andere Arten von Beziehungen zu erkennen: syntaktische Strukturen, semantische Ähnlichkeiten, Koreferenzen oder Abhängigkeiten über lange Distanzen hinweg.

Wie funktioniert ein Attention-Head?

Jeder Head projiziert die Eingabe in drei Vektoren: Query (Suchanfrage), Key (Kennzeichen) und Value (Inhalt). Die Ähnlichkeit zwischen Query und allen Keys bestimmt per Softmax, wie stark welche Values gewichtet werden. Das Ergebnis aller Heads wird am Ende zusammengeführt und linear transformiert.

  • Query, Key, Value: drei Rollen jedes Tokens bei der Attention-Berechnung
  • Skalierung durch Wurzel der Dimension verhindert verschwindende Gradienten
  • Jeder Head spezialisiert sich im Training auf andere Sprachaspekte
  • Varianten wie Grouped-Query Attention (GQA) reduzieren Speicherbedarf bei Inferenz
  • Die Anzahl der Heads ist ein zentraler Architektur-Hyperparameter

Analogie

Stellen Sie sich vor, ein erfahrener Lektor liest einen Text gleichzeitig auf Grammatik, Bedeutung, Stil und Konsistenz — MHA macht genau das, nur parallel in mehreren spezialisierten Kanälen. Kein einzelner Head muss alles erkennen.

Relevanz für den Mittelstand

MHA ist der Grund, warum Sprachmodelle komplexe Fragen verstehen, Pronomen korrekt auflösen und lange Dokumente kohärent zusammenfassen können. Für Anwender direkt nicht konfigurierbar — aber die Qualität der Attention-Implementierung (z.B. Anzahl Heads, Kontextlänge) erklärt wesentliche Qualitätsunterschiede zwischen Modellen. Bei der Modellwahl gilt: mehr Heads und größere Kontextfenster bedeuten in der Regel besseres Textverstehen bei komplexen Dokumenten.

← Zurück zum Glossar