Context Caching

Inferenz

Eine Optimierungstechnik in KI-APIs, die teure Kontextberechnungen zwischenspeichert und so Kosten und Latenz bei wiederholten Anfragen senkt.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was ist Context Caching?

Bei jedem API-Aufruf an ein Sprachmodell müssen alle Tokens des Kontexts — System-Prompt, bisherige Konversation, eingebettete Dokumente — durch alle Modellschichten verarbeitet werden. Das kostet Rechenzeit und Geld, auch wenn sich der Kontext zwischen zwei Anfragen kaum verändert hat.

Context Caching löst dieses Problem: Die berechneten KV-Cache-Werte (Key-Value-Paare aus dem Attention-Mechanismus) für einen stabilen Kontext werden auf dem Server gespeichert. Bei der nächsten Anfrage mit demselben Präfix müssen diese Tokens nicht neu berechnet werden — das Modell kann direkt auf die gecachten Zwischenergebnisse zugreifen.

Implementierung und Anbieter

Context Caching ist 2024/2025 von den großen API-Anbietern als Feature eingeführt worden. Die Implementierungen unterscheiden sich in Details, folgen aber demselben Grundprinzip.

  • Anthropic Claude: Prompt Caching für gekennzeichnete Cache-Breakpoints; ca. 90 % Kostenreduktion für gecachte Tokens
  • Google Gemini: explizites Context Caching mit konfigurierbarer TTL (Time-to-Live)
  • OpenAI: automatisches Prompt Caching ab 1.024 Tokens für identische Präfixe
  • Typische Kosteneinsparung: 50-90 % für den gecachten Kontext-Anteil
  • Latenz-Vorteil: Time-to-First-Token sinkt deutlich bei langen gecachten Präfixen

Praxisbeispiel

Ein Unternehmen betreibt einen Chatbot mit einem 50.000-Token-Systemkontext (Produktdatenbank, Richtlinien). Ohne Caching zahlt jede Nutzeranfrage die vollen Kosten für 50.000 Tokens. Mit Context Caching werden diese Tokens einmal berechnet und gecacht — jede Folge-Anfrage kostet nur noch die 10-50 Nutzer-Tokens. Bei 10.000 Anfragen pro Tag: Kostensenkung von 80-90 %.

Relevanz für den Mittelstand

Context Caching ist einer der wichtigsten konkreten Kostenhebel bei der Nutzung von KI-APIs. Besonders wirksam bei Anwendungen mit langen, stabilen System-Prompts oder wiederholt referenzierten Dokumenten — typische Szenarien im Unternehmenseinsatz: Chatbots mit Produktkatalogen, Dokumentenanalyse-Pipelines, Code-Assistenten mit großem Codebase-Kontext. Die korrekte Implementierung von Caching-Strategien sollte bei jeder neuen KI-Anwendungsentwicklung von Anfang an eingeplant werden.

← Zurück zum Glossar