Attention
AufmerksamkeitMechanismus in Transformer-Modellen, der bestimmt, welche Teile des Inputs für die Ausgabe wichtig sind. Basis moderner Sprachmodelle.
Was ist Attention?
Attention (Aufmerksamkeit) ist ein Mechanismus in neuronalen Netzen, der es einem Modell ermöglicht, unterschiedliche Teile einer Eingabe unterschiedlich stark zu gewichten. Statt alle Wörter oder Datenpunkte gleichförmig zu verarbeiten, lernt das Modell, seine Aufmerksamkeit gezielt auf die jeweils relevanten Stellen zu richten. Dieses Prinzip bildet das Herzstück der Transformer-Architektur, die seit 2017 praktisch alle großen Sprachmodelle antreibt.
Wie funktioniert Attention?
Im Kern verwendet Attention drei Vektoren pro Eingabeposition: Query, Key und Value. Für jedes Element wird ein Query-Vektor erzeugt, der mit den Key-Vektoren aller anderen Elemente verglichen wird. Aus diesem Vergleich entstehen Gewichte, die angeben, wie stark jede Position zur Ausgabe beitragen soll. Die gewichteten Value-Vektoren werden anschließend zusammengeführt. In der Praxis wird dieser Vorgang als sogenannte Self-Attention parallel über alle Positionen berechnet, was erheblich schneller ist als die sequenzielle Verarbeitung früherer Architekturen wie RNNs. Bei Multi-Head Attention führt das Modell diesen Prozess mehrfach parallel mit unterschiedlichen Gewichten durch und erfasst so verschiedene Aspekte der Beziehungen zwischen Wörtern gleichzeitig.
Warum ist Attention wichtig?
Attention hat die KI-Entwicklung grundlegend verändert, weil es zwei zentrale Probleme löst: Erstens können Modelle nun auch in sehr langen Texten weit entfernte Zusammenhänge erkennen, was bei älteren Architekturen durch das sogenannte Vanishing-Gradient-Problem kaum möglich war. Zweitens erlaubt Attention eine massive Parallelisierung des Trainings auf GPUs, da alle Positionen gleichzeitig verarbeitet werden. Ohne Attention gäbe es keine leistungsfähigen Large Language Models, keine modernen Übersetzungssysteme und keine KI-gestützte Textanalyse in der heutigen Qualität. Für Unternehmen bedeutet das: Die Fähigkeit heutiger KI-Systeme, lange Dokumente zu verstehen, komplexe Anfragen zu beantworten oder mehrseitige Verträge zusammenzufassen, beruht direkt auf diesem Mechanismus.
Verwandte Begriffe
Transformer, Self-Attention, Context Window, Large Language Model, Embedding
← Zurück zum Glossar