KV-Cache

Optimierung

Speicher für berechnete Key-Value-Paare bei der Attention. Beschleunigt Textgenerierung erheblich.

Was ist KV-Cache?

Der KV-Cache (Key-Value-Cache) ist ein Zwischenspeicher, der bei der Textgenerierung mit Transformer-Modellen zum Einsatz kommt. Er speichert die bereits berechneten Key- und Value-Vektoren aus dem Self-Attention-Mechanismus, damit diese bei der Erzeugung jedes weiteren Tokens nicht erneut berechnet werden müssen. Ohne KV-Cache müsste das Modell bei jedem neuen Token die gesamte bisherige Eingabe erneut verarbeiten -- ein enormer Rechenaufwand.

Stellen Sie sich vor, Sie diktieren einen Brief: Ohne KV-Cache würde der Schreiber bei jedem neuen Wort den gesamten Brief von vorne lesen. Mit KV-Cache merkt er sich die wichtigen Informationen und fügt nur das neue Wort hinzu.

Wie funktioniert KV-Cache?

Im Self-Attention-Mechanismus werden für jedes Token drei Vektoren berechnet: Query, Key und Value. Wenn das Modell Token für Token generiert (autoregressive Generierung), ändern sich die Key- und Value-Vektoren der bisherigen Tokens nicht mehr. Der KV-Cache speichert diese Vektoren und erweitert sie bei jedem neuen Token. So muss nur noch der Query-Vektor des aktuellen Tokens gegen alle gespeicherten Keys abgeglichen werden.

Der Speicherbedarf des KV-Cache wächst linear mit der Kontextlänge und der Anzahl der Attention-Schichten. Bei großen Modellen mit langen Kontextfenstern kann der KV-Cache mehrere Gigabyte GPU-Speicher belegen. Techniken wie Grouped Query Attention (GQA) oder Multi-Query Attention (MQA) reduzieren den Speicherbedarf, indem Key- und Value-Vektoren über mehrere Attention-Köpfe geteilt werden.

Warum ist KV-Cache wichtig?

Ohne KV-Cache wäre die Textgenerierung mit großen Sprachmodellen in der Praxis unbenutzbar langsam. Die Beschleunigung durch den Cache ist enorm: Die Generierungszeit sinkt von quadratischer auf lineare Komplexität pro Token. Für Unternehmen bedeutet das kürzere Antwortzeiten, geringere Serverkosten und die Möglichkeit, mehr Anfragen gleichzeitig zu bedienen.

Gleichzeitig ist der KV-Cache der größte Engpass beim Betrieb von Sprachmodellen. Wer KI-Infrastruktur plant, muss den GPU-Speicherbedarf des KV-Cache einkalkulieren -- besonders bei Anwendungen mit langen Kontexten wie Dokumentenanalyse oder mehrstufigen Dialogen.

Verwandte Begriffe

Self-Attention · Transformer · Context Window · Inference · VRAM

← Zurück zum Glossar