Positional Encoding

Architektur

Eine Technik, die Transformer-Modellen beibringt, wo im Text ein Wort steht, da der Attention-Mechanismus selbst keine Reihenfolge kennt.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Warum Transformer keine Reihenfolge kennen

Der Attention-Mechanismus in Transformern betrachtet alle Tokens einer Eingabe gleichzeitig — er hat von sich aus keine Vorstellung davon, ob ein Wort am Anfang, in der Mitte oder am Ende steht. Das ist ein fundamentaler Unterschied zu älteren Architekturen wie RNNs, die Texte sequenziell verarbeiten.

Um diese fehlende Positionsinformation zu kompensieren, wird jedem Token-Embedding ein Positionssignal hinzuaddiert oder multipliziert: das Positional Encoding. Das Modell kann so lernen, Positionen in seine Berechnungen einzubeziehen — zum Beispiel dass das Subjekt typischerweise vor dem Verb steht.

Varianten des Positional Encodings

Die Forschung hat mehrere Verfahren entwickelt, die sich in Effizienz und Generalisierungsfähigkeit auf neue, längere Kontexte unterscheiden. Besonders RoPE hat sich als Standard für moderne Modelle etabliert.

Sinusförmiges PE (Original-Transformer 2017): feste Sinus/Kosinus-Werte je Position
Gelernte absolute Positionen: das Modell erlernt Positionsvektoren direkt aus Daten
RoPE (Rotary Position Embedding): rotiert Query/Key-Vektoren, ermöglicht gute Extrapolation auf längere Kontexte; Standard in LLaMA, Mistral, Qwen
ALiBi: addiert lineare Abstands-Bias direkt zur Attention-Matrix, sehr speichereffizient
Relative Positional Encoding: kodiert Abstände zwischen Token-Paaren statt absolute Positionen

Relevanz für Kontextlänge

Die Wahl des Positional Encodings bestimmt maßgeblich, wie gut ein Modell auf Kontextlängen generalisiert, die es im Training nicht gesehen hat. RoPE mit Erweiterungstechniken (YaRN, Rope Scaling) ermöglicht es, Modelle, die auf 4.096 Tokens trainiert wurden, auf 128.000 Tokens zu erweitern.

Relevanz für den Mittelstand

Positional Encoding ist der Grund, warum manche Modelle bei langen Dokumenten qualitativ nachlassen: Wenn das Encoding nicht gut auf große Kontextlängen verallgemeinert, verliert das Modell an Präzision. Bei der Auswahl von Modellen für Anwendungsfälle mit langen Dokumenten — Verträge, technische Handbücher, Protokolle — lohnt sich der Blick auf das verwendete Encoding-Verfahren und die tatsächlich unterstützte Kontextlänge.

← Zurück zum Glossar

Positional Encoding

Warum Transformer keine Reihenfolge kennen

Varianten des Positional Encodings

Relevanz für Kontextlänge

Relevanz für den Mittelstand

Verwandte Begriffe