Test-Time Compute

Reasoning

Strategie, bei der ein KI-Modell zur Antwortzeit mehr Rechenkapazität nutzt, um durch längeres Nachdenken bessere Ergebnisse zu erzielen.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was bedeutet Test-Time Compute?

Traditionell wird KI-Leistung vor allem durch größere Modelle und mehr Trainingsdaten verbessert. Test-Time Compute (auch: Inferenz-Skalierung) verfolgt einen anderen Ansatz: Statt das Modell größer zu machen, erhält es zur Laufzeit mehr Zeit und Rechenressourcen, um eine Aufgabe gründlicher zu bearbeiten.

Konkret kann das bedeuten, dass das Modell mehrere Lösungswege parallel durchdenkt, Teilergebnisse bewertet und verwirft oder iterativ seinen eigenen Output überprüft. Dieser Ansatz liegt den modernen Reasoning-Modellen wie o1 oder o3 zugrunde.

Mechanismen der Inferenz-Skalierung

Es gibt verschiedene technische Strategien, um Test-Time Compute effektiv einzusetzen:

  • Best-of-N: Das Modell erzeugt mehrere Antworten und wählt die beste aus
  • Beam Search: Paralleles Verfolgen mehrerer Lösungspfade
  • Iterative Verfeinerung: Das Modell prüft und verbessert seine eigene Antwort
  • Monte-Carlo-Tree-Search: Strukturiertes Durchsuchen eines Lösungsraums

Rechenzeit vs. Modellgröße

Studien zeigen, dass ein kleineres Modell mit viel Test-Time Compute ein größeres Modell ohne diese Strategie bei komplexen Aufgaben übertreffen kann. Das eröffnet neue Effizienzoptionen.

Relevanz für den Mittelstand

Für Unternehmen bedeutet Test-Time Compute, dass KI-Kosten aufgabenabhängig gesteuert werden können: Routineaufgaben laufen schnell und günstig, kritische Entscheidungen erhalten mehr Rechenbudget. KI-Anbieter wie OpenAI und Anthropic bieten bereits einstellbare Reasoning-Stufen an. IT-Verantwortliche sollten diese Stellschraube kennen und in ihre Kostenplanung einbeziehen.

← Zurück zum Glossar