Cross-Attention

Architektur

Ein Attention-Mechanismus, der zwei unterschiedliche Eingaben verknüpft — typisch bei Übersetzung, Bildbeschreibung und Encoder-Decoder-Modellen.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was ist Cross-Attention?

Cross-Attention ist eine Variante des Attention-Mechanismus, bei der Query und Key/Value aus verschiedenen Quellen stammen. Anders als bei Self-Attention — wo ein Text sich auf sich selbst bezieht — stellt Cross-Attention eine Brücke zwischen zwei unterschiedlichen Sequenzen oder Modalitäten her.

Das klassische Beispiel: In einem Übersetzungsmodell (Encoder-Decoder-Architektur) berechnet der Decoder bei der Ausgabe jedes Wortes Cross-Attention über die gesamte kodierte Eingabesequenz. So kann das Modell beim Erzeugen des deutschen Satzes gezielt auf relevante Teile des englischen Originaltexts zugreifen.

Einsatzbereiche von Cross-Attention

Cross-Attention ist überall dort entscheidend, wo Informationen aus zwei Quellen zusammengeführt werden müssen. In multimodalen Modellen verbindet sie beispielsweise Bild-Features (aus einem Vision-Encoder) mit Text-Tokens — so entsteht die Fähigkeit, Bilder zu beschreiben oder Fragen zu Bildern zu beantworten.

  • Maschinelle Übersetzung: Decoder fragt bei jedem Ausgabewort den Encoder ab
  • Text-zu-Bild-Modelle (z.B. Stable Diffusion): Text-Embeddings steuern die Bildgenerierung
  • Visuelle Sprachmodelle (GPT-4o, Gemini): Verbindung von Bild- und Textverständnis
  • Sprachsynthese: Textrepräsentation steuert die Audioausgabe
  • Retrieval-Augmented Generation: Verknüpfung von Frage und abgerufenen Dokumenten

Abgrenzung zu Self-Attention

Self-Attention: Ein Text analysiert sich selbst. Cross-Attention: Zwei verschiedene Inputs werden verknüpft. Bei GPT-ähnlichen Modellen gibt es nur Self-Attention; bei Encoder-Decoder-Modellen wie T5 oder klassischen Übersetzungssystemen ist Cross-Attention unverzichtbar.

Relevanz für den Mittelstand

Cross-Attention ist der Mechanismus hinter multimodalen KI-Anwendungen — also Systemen, die Text und Bild gemeinsam verarbeiten. Wer KI-gestützte Dokumentenanalyse, automatische Bildbeschreibung für Produktkataloge oder visuelle Qualitätskontrolle plant, arbeitet mit Modellen, die auf Cross-Attention basieren. Das Verständnis des Mechanismus hilft bei der Einschätzung, welche Modelltypen für welche multimodale Aufgabe geeignet sind.

← Zurück zum Glossar