Self-Attention
Transformer-ArchitekturAufmerksamkeitsmechanismus, bei dem jedes Token auf alle anderen Tokens im Kontext achtet.
Was ist Self-Attention?
Self-Attention (Selbstaufmerksamkeit) ist der zentrale Mechanismus der Transformer-Architektur, auf der alle modernen großen Sprachmodelle basieren. Er ermöglicht es jedem Token in einer Eingabesequenz, auf alle anderen Tokens zu "achten" und so kontextabhängige Bedeutungen zu erfassen. Dadurch kann das Modell verstehen, dass das Wort "Bank" in "Ich sitze auf der Bank" eine andere Bedeutung hat als in "Ich gehe zur Bank".
Self-Attention ist der Durchbruch, der Transformer-Modelle den früheren Architekturen wie RNNs überlegen gemacht hat: Es ermöglicht die parallele Verarbeitung ganzer Sequenzen und erfasst auch Beziehungen zwischen weit entfernten Wörtern.
Wie funktioniert Self-Attention?
Für jedes Token berechnet der Mechanismus drei Vektoren: Query (Anfrage), Key (Schlüssel) und Value (Wert). Der Query eines Tokens wird mit den Keys aller anderen Tokens verglichen, um zu bestimmen, wie viel Aufmerksamkeit auf jedes Token gerichtet werden soll. Diese Aufmerksamkeitsgewichte werden über die Softmax-Funktion normalisiert und dann mit den Value-Vektoren multipliziert. Das Ergebnis ist eine gewichtete Kombination der Informationen aller Tokens -- wobei relevante Tokens stärker berücksichtigt werden.
In der Praxis verwenden Modelle Multi-Head Attention: Der Self-Attention-Mechanismus wird parallel in mehreren "Köpfen" ausgeführt, die jeweils unterschiedliche Aspekte der Beziehungen zwischen Tokens lernen. Ein Kopf könnte syntaktische Beziehungen erfassen (Subjekt-Verb-Zuordnung), ein anderer semantische Zusammenhänge (Thema eines Absatzes). Die Ergebnisse aller Köpfe werden kombiniert.
Warum ist Self-Attention wichtig?
Self-Attention ist die Grundlage aller heutigen Sprachmodelle -- von GPT über Claude bis LLaMA. Ohne diesen Mechanismus wäre das Sprachverständnis moderner KI-Systeme nicht möglich. Er ermöglicht es den Modellen, komplexe Zusammenhänge in Texten zu erkennen, auch wenn die relevanten Informationen weit auseinander liegen.
Für Unternehmen ist das Konzept relevant, weil es die Stärken und Grenzen von Sprachmodellen erklärt. Die quadratische Komplexität von Self-Attention (jedes Token wird mit jedem verglichen) ist der Hauptgrund für die Beschränkung des Kontextfensters und den hohen Rechenaufwand. Aktuelle Forschung an effizienteren Attention-Varianten zielt darauf ab, längere Texte zu niedrigeren Kosten zu verarbeiten.
Verwandte Begriffe
Transformer · Attention · Softmax · KV-Cache · Context Window
← Zurück zum Glossar