Positional Encoding
ArchitekturEine Technik, die Transformer-Modellen beibringt, wo im Text ein Wort steht, da der Attention-Mechanismus selbst keine Reihenfolge kennt.
Warum Transformer keine Reihenfolge kennen
Der Attention-Mechanismus in Transformern betrachtet alle Tokens einer Eingabe gleichzeitig — er hat von sich aus keine Vorstellung davon, ob ein Wort am Anfang, in der Mitte oder am Ende steht. Das ist ein fundamentaler Unterschied zu älteren Architekturen wie RNNs, die Texte sequenziell verarbeiten.
Um diese fehlende Positionsinformation zu kompensieren, wird jedem Token-Embedding ein Positionssignal hinzuaddiert oder multipliziert: das Positional Encoding. Das Modell kann so lernen, Positionen in seine Berechnungen einzubeziehen — zum Beispiel dass das Subjekt typischerweise vor dem Verb steht.
Varianten des Positional Encodings
Die Forschung hat mehrere Verfahren entwickelt, die sich in Effizienz und Generalisierungsfähigkeit auf neue, längere Kontexte unterscheiden. Besonders RoPE hat sich als Standard für moderne Modelle etabliert.
- Sinusförmiges PE (Original-Transformer 2017): feste Sinus/Kosinus-Werte je Position
- Gelernte absolute Positionen: das Modell erlernt Positionsvektoren direkt aus Daten
- RoPE (Rotary Position Embedding): rotiert Query/Key-Vektoren, ermöglicht gute Extrapolation auf längere Kontexte; Standard in LLaMA, Mistral, Qwen
- ALiBi: addiert lineare Abstands-Bias direkt zur Attention-Matrix, sehr speichereffizient
- Relative Positional Encoding: kodiert Abstände zwischen Token-Paaren statt absolute Positionen
Relevanz für Kontextlänge
Die Wahl des Positional Encodings bestimmt maßgeblich, wie gut ein Modell auf Kontextlängen generalisiert, die es im Training nicht gesehen hat. RoPE mit Erweiterungstechniken (YaRN, Rope Scaling) ermöglicht es, Modelle, die auf 4.096 Tokens trainiert wurden, auf 128.000 Tokens zu erweitern.
Relevanz für den Mittelstand
Positional Encoding ist der Grund, warum manche Modelle bei langen Dokumenten qualitativ nachlassen: Wenn das Encoding nicht gut auf große Kontextlängen verallgemeinert, verliert das Modell an Präzision. Bei der Auswahl von Modellen für Anwendungsfälle mit langen Dokumenten — Verträge, technische Handbücher, Protokolle — lohnt sich der Blick auf das verwendete Encoding-Verfahren und die tatsächlich unterstützte Kontextlänge.
← Zurück zum Glossar