Prompt Caching

Inferenz

Wiederverwendung vorberechneter Kontextanteile im LLM-Serving – spart Rechenzeit und API-Kosten bei sich wiederholenden System-Prompts oder Dokumenten.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Funktionsprinzip

Jeder Token in einem LLM-Prompt erzeugt während der Verarbeitung einen sogenannten KV-Cache (Key-Value-Cache). Werden dieselben Prompt-Anteile – etwa ein langer System-Prompt, ein Vertragsdokument oder ein Codekontext – immer wieder an das Modell übergeben, ist es ineffizient, diesen Cache jedes Mal neu zu berechnen.

Prompt Caching speichert den KV-Cache für den unveränderlichen Präfix einer Anfrage und stellt ihn bei der nächsten Anfrage mit identischem Präfix direkt bereit. Nur der variable Teil des Prompts wird neu berechnet.

Einsatzbedingungen und Grenzen

Der Cache-Treffer setzt voraus, dass der Präfix byte-identisch ist. Selbst kleine Änderungen am gecachten Teil invalidieren den Eintrag. Die Caching-Logik ist modell- und plattformspezifisch: Anthropic Claude, OpenAI und selbst betriebene vLLM-Instanzen implementieren das Feature unterschiedlich. Cache-Einträge haben eine begrenzte Lebensdauer (typisch wenige Minuten bis Stunden).

Latenzreduktion: Bis zu 80 % geringere Time-to-First-Token bei Cache-Treffern
Kosteneinsparung: Gecachte Token werden günstiger abgerechnet (z. B. 90 % Rabatt bei Claude)
Ideal für lange System-Prompts, FAQ-Kontexte, Vertragsdokumente, Code-Repositories
Kein Qualitätsunterschied: Ausgabe ist identisch mit ungecachter Verarbeitung

Beispiel

Ein Chatbot, der jedem Gespräch ein 10.000-Token-Regelwerk voranstellt, zahlt ab dem zweiten Aufruf nur noch für die eigentliche Nutzerfrage – der Rest kommt aus dem Cache.

Relevanz für den Mittelstand

Unternehmen, die LLM-APIs intensiv nutzen – etwa für Dokumentenprüfung, Support-Chatbots oder Code-Assistenten mit großem Kontext – können durch Prompt Caching die API-Kosten erheblich reduzieren. Die Implementierung erfordert lediglich eine Anpassung der Prompt-Struktur: Unveränderliche Anteile müssen konsequent an den Anfang gestellt werden.

← Zurück zum Glossar

Prompt Caching

Funktionsprinzip

Einsatzbedingungen und Grenzen

Beispiel

Relevanz für den Mittelstand

Verwandte Begriffe