Cross-Attention
ArchitekturEin Attention-Mechanismus, der zwei unterschiedliche Eingaben verknüpft — typisch bei Übersetzung, Bildbeschreibung und Encoder-Decoder-Modellen.
Was ist Cross-Attention?
Cross-Attention ist eine Variante des Attention-Mechanismus, bei der Query und Key/Value aus verschiedenen Quellen stammen. Anders als bei Self-Attention — wo ein Text sich auf sich selbst bezieht — stellt Cross-Attention eine Brücke zwischen zwei unterschiedlichen Sequenzen oder Modalitäten her.
Das klassische Beispiel: In einem Übersetzungsmodell (Encoder-Decoder-Architektur) berechnet der Decoder bei der Ausgabe jedes Wortes Cross-Attention über die gesamte kodierte Eingabesequenz. So kann das Modell beim Erzeugen des deutschen Satzes gezielt auf relevante Teile des englischen Originaltexts zugreifen.
Einsatzbereiche von Cross-Attention
Cross-Attention ist überall dort entscheidend, wo Informationen aus zwei Quellen zusammengeführt werden müssen. In multimodalen Modellen verbindet sie beispielsweise Bild-Features (aus einem Vision-Encoder) mit Text-Tokens — so entsteht die Fähigkeit, Bilder zu beschreiben oder Fragen zu Bildern zu beantworten.
- Maschinelle Übersetzung: Decoder fragt bei jedem Ausgabewort den Encoder ab
- Text-zu-Bild-Modelle (z.B. Stable Diffusion): Text-Embeddings steuern die Bildgenerierung
- Visuelle Sprachmodelle (GPT-4o, Gemini): Verbindung von Bild- und Textverständnis
- Sprachsynthese: Textrepräsentation steuert die Audioausgabe
- Retrieval-Augmented Generation: Verknüpfung von Frage und abgerufenen Dokumenten
Abgrenzung zu Self-Attention
Self-Attention: Ein Text analysiert sich selbst. Cross-Attention: Zwei verschiedene Inputs werden verknüpft. Bei GPT-ähnlichen Modellen gibt es nur Self-Attention; bei Encoder-Decoder-Modellen wie T5 oder klassischen Übersetzungssystemen ist Cross-Attention unverzichtbar.
Relevanz für den Mittelstand
Cross-Attention ist der Mechanismus hinter multimodalen KI-Anwendungen — also Systemen, die Text und Bild gemeinsam verarbeiten. Wer KI-gestützte Dokumentenanalyse, automatische Bildbeschreibung für Produktkataloge oder visuelle Qualitätskontrolle plant, arbeitet mit Modellen, die auf Cross-Attention basieren. Das Verständnis des Mechanismus hilft bei der Einschätzung, welche Modelltypen für welche multimodale Aufgabe geeignet sind.
← Zurück zum Glossar