KV-Cache
OptimierungSpeicher für berechnete Key-Value-Paare bei der Attention. Beschleunigt Textgenerierung erheblich.
Was ist KV-Cache?
Der KV-Cache (Key-Value-Cache) ist ein Zwischenspeicher, der bei der Textgenerierung mit Transformer-Modellen zum Einsatz kommt. Er speichert die bereits berechneten Key- und Value-Vektoren aus dem Self-Attention-Mechanismus, damit diese bei der Erzeugung jedes weiteren Tokens nicht erneut berechnet werden müssen. Ohne KV-Cache müsste das Modell bei jedem neuen Token die gesamte bisherige Eingabe erneut verarbeiten -- ein enormer Rechenaufwand.
Stellen Sie sich vor, Sie diktieren einen Brief: Ohne KV-Cache würde der Schreiber bei jedem neuen Wort den gesamten Brief von vorne lesen. Mit KV-Cache merkt er sich die wichtigen Informationen und fügt nur das neue Wort hinzu.
Wie funktioniert KV-Cache?
Im Self-Attention-Mechanismus werden für jedes Token drei Vektoren berechnet: Query, Key und Value. Wenn das Modell Token für Token generiert (autoregressive Generierung), ändern sich die Key- und Value-Vektoren der bisherigen Tokens nicht mehr. Der KV-Cache speichert diese Vektoren und erweitert sie bei jedem neuen Token. So muss nur noch der Query-Vektor des aktuellen Tokens gegen alle gespeicherten Keys abgeglichen werden.
Der Speicherbedarf des KV-Cache wächst linear mit der Kontextlänge und der Anzahl der Attention-Schichten. Bei großen Modellen mit langen Kontextfenstern kann der KV-Cache mehrere Gigabyte GPU-Speicher belegen. Techniken wie Grouped Query Attention (GQA) oder Multi-Query Attention (MQA) reduzieren den Speicherbedarf, indem Key- und Value-Vektoren über mehrere Attention-Köpfe geteilt werden.
Warum ist KV-Cache wichtig?
Ohne KV-Cache wäre die Textgenerierung mit großen Sprachmodellen in der Praxis unbenutzbar langsam. Die Beschleunigung durch den Cache ist enorm: Die Generierungszeit sinkt von quadratischer auf lineare Komplexität pro Token. Für Unternehmen bedeutet das kürzere Antwortzeiten, geringere Serverkosten und die Möglichkeit, mehr Anfragen gleichzeitig zu bedienen.
Gleichzeitig ist der KV-Cache der größte Engpass beim Betrieb von Sprachmodellen. Wer KI-Infrastruktur plant, muss den GPU-Speicherbedarf des KV-Cache einkalkulieren -- besonders bei Anwendungen mit langen Kontexten wie Dokumentenanalyse oder mehrstufigen Dialogen.
Verwandte Begriffe
Self-Attention · Transformer · Context Window · Inference · VRAM
← Zurück zum Glossar