Context Caching
InferenzEine Optimierungstechnik in KI-APIs, die teure Kontextberechnungen zwischenspeichert und so Kosten und Latenz bei wiederholten Anfragen senkt.
Was ist Context Caching?
Bei jedem API-Aufruf an ein Sprachmodell müssen alle Tokens des Kontexts — System-Prompt, bisherige Konversation, eingebettete Dokumente — durch alle Modellschichten verarbeitet werden. Das kostet Rechenzeit und Geld, auch wenn sich der Kontext zwischen zwei Anfragen kaum verändert hat.
Context Caching löst dieses Problem: Die berechneten KV-Cache-Werte (Key-Value-Paare aus dem Attention-Mechanismus) für einen stabilen Kontext werden auf dem Server gespeichert. Bei der nächsten Anfrage mit demselben Präfix müssen diese Tokens nicht neu berechnet werden — das Modell kann direkt auf die gecachten Zwischenergebnisse zugreifen.
Implementierung und Anbieter
Context Caching ist 2024/2025 von den großen API-Anbietern als Feature eingeführt worden. Die Implementierungen unterscheiden sich in Details, folgen aber demselben Grundprinzip.
- Anthropic Claude: Prompt Caching für gekennzeichnete Cache-Breakpoints; ca. 90 % Kostenreduktion für gecachte Tokens
- Google Gemini: explizites Context Caching mit konfigurierbarer TTL (Time-to-Live)
- OpenAI: automatisches Prompt Caching ab 1.024 Tokens für identische Präfixe
- Typische Kosteneinsparung: 50-90 % für den gecachten Kontext-Anteil
- Latenz-Vorteil: Time-to-First-Token sinkt deutlich bei langen gecachten Präfixen
Praxisbeispiel
Ein Unternehmen betreibt einen Chatbot mit einem 50.000-Token-Systemkontext (Produktdatenbank, Richtlinien). Ohne Caching zahlt jede Nutzeranfrage die vollen Kosten für 50.000 Tokens. Mit Context Caching werden diese Tokens einmal berechnet und gecacht — jede Folge-Anfrage kostet nur noch die 10-50 Nutzer-Tokens. Bei 10.000 Anfragen pro Tag: Kostensenkung von 80-90 %.
Relevanz für den Mittelstand
Context Caching ist einer der wichtigsten konkreten Kostenhebel bei der Nutzung von KI-APIs. Besonders wirksam bei Anwendungen mit langen, stabilen System-Prompts oder wiederholt referenzierten Dokumenten — typische Szenarien im Unternehmenseinsatz: Chatbots mit Produktkatalogen, Dokumentenanalyse-Pipelines, Code-Assistenten mit großem Codebase-Kontext. Die korrekte Implementierung von Caching-Strategien sollte bei jeder neuen KI-Anwendungsentwicklung von Anfang an eingeplant werden.
← Zurück zum Glossar