Prompt Caching
InferenzWiederverwendung vorberechneter Kontextanteile im LLM-Serving – spart Rechenzeit und API-Kosten bei sich wiederholenden System-Prompts oder Dokumenten.
Funktionsprinzip
Jeder Token in einem LLM-Prompt erzeugt während der Verarbeitung einen sogenannten KV-Cache (Key-Value-Cache). Werden dieselben Prompt-Anteile – etwa ein langer System-Prompt, ein Vertragsdokument oder ein Codekontext – immer wieder an das Modell übergeben, ist es ineffizient, diesen Cache jedes Mal neu zu berechnen.
Prompt Caching speichert den KV-Cache für den unveränderlichen Präfix einer Anfrage und stellt ihn bei der nächsten Anfrage mit identischem Präfix direkt bereit. Nur der variable Teil des Prompts wird neu berechnet.
Einsatzbedingungen und Grenzen
Der Cache-Treffer setzt voraus, dass der Präfix byte-identisch ist. Selbst kleine Änderungen am gecachten Teil invalidieren den Eintrag. Die Caching-Logik ist modell- und plattformspezifisch: Anthropic Claude, OpenAI und selbst betriebene vLLM-Instanzen implementieren das Feature unterschiedlich. Cache-Einträge haben eine begrenzte Lebensdauer (typisch wenige Minuten bis Stunden).
- Latenzreduktion: Bis zu 80 % geringere Time-to-First-Token bei Cache-Treffern
- Kosteneinsparung: Gecachte Token werden günstiger abgerechnet (z. B. 90 % Rabatt bei Claude)
- Ideal für lange System-Prompts, FAQ-Kontexte, Vertragsdokumente, Code-Repositories
- Kein Qualitätsunterschied: Ausgabe ist identisch mit ungecachter Verarbeitung
Beispiel
Ein Chatbot, der jedem Gespräch ein 10.000-Token-Regelwerk voranstellt, zahlt ab dem zweiten Aufruf nur noch für die eigentliche Nutzerfrage – der Rest kommt aus dem Cache.
Relevanz für den Mittelstand
Unternehmen, die LLM-APIs intensiv nutzen – etwa für Dokumentenprüfung, Support-Chatbots oder Code-Assistenten mit großem Kontext – können durch Prompt Caching die API-Kosten erheblich reduzieren. Die Implementierung erfordert lediglich eine Anpassung der Prompt-Struktur: Unveränderliche Anteile müssen konsequent an den Anfang gestellt werden.
← Zurück zum Glossar