Transformer

Architektur

Die Architektur hinter allen modernen LLMs. Nutzt Self-Attention statt Rekurrenz.

Was ist ein Transformer?

Ein Transformer ist eine neuronale Netzwerk-Architektur, die 2017 von Google-Forschern im wegweisenden Paper "Attention Is All You Need" vorgestellt wurde. Im Kern ersetzt der Transformer die bis dahin üblichen rekurrenten Verarbeitungsschritte durch einen sogenannten Self-Attention-Mechanismus, der es dem Modell erlaubt, alle Teile einer Eingabe gleichzeitig zu betrachten und deren Beziehungen zueinander zu lernen. Diese Architektur bildet die Grundlage praktisch aller modernen großen Sprachmodelle (LLMs) wie GPT, Claude und Gemini.

Wie funktioniert ein Transformer?

Der Transformer besteht aus zwei Hauptkomponenten: einem Encoder, der die Eingabe verarbeitet, und einem Decoder, der die Ausgabe erzeugt. Viele moderne Modelle nutzen jedoch nur einen der beiden Teile -- GPT-Modelle beispielsweise verwenden nur den Decoder. Das Herzstück ist der Self-Attention-Mechanismus: Für jedes Wort in einem Satz berechnet das Modell, wie stark es mit jedem anderen Wort zusammenhängt. So kann es beispielsweise erkennen, dass sich das Pronomen "er" auf eine bestimmte Person drei Sätze zuvor bezieht. Durch die parallele Verarbeitung aller Wörter gleichzeitig -- statt nacheinander wie bei RNNs -- können Transformer wesentlich schneller trainiert werden und längere Zusammenhänge erfassen.

Warum ist der Transformer wichtig?

Der Transformer hat die gesamte KI-Landschaft verändert. Vor seiner Einführung waren Fortschritte in der Sprachverarbeitung langsam und die Modelle konnten nur kurze Texte sinnvoll verarbeiten. Die Transformer-Architektur ermöglicht es, Modelle auf riesigen Datenmengen effizient zu trainieren und dabei Muster über tausende Wörter hinweg zu erkennen. Für Unternehmen bedeutet das: Die Qualität von KI-gestützter Textverarbeitung, Übersetzung, Zusammenfassung und Codegenerierung hat sich durch Transformer massiv verbessert und ist heute praktisch einsetzbar.

Verwandte Begriffe

Attention · GPT · Large Language Model (LLM) · BERT · Neural Network · Deep Learning

Mehr dazu in unserem Blogartikel: Deep Learning vs. Machine Learning

← Zurück zum Glossar