Test-Time Compute

Reasoning

Strategie, bei der ein KI-Modell zur Antwortzeit mehr Rechenkapazität nutzt, um durch längeres Nachdenken bessere Ergebnisse zu erzielen.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was bedeutet Test-Time Compute?

Traditionell wird KI-Leistung vor allem durch größere Modelle und mehr Trainingsdaten verbessert. Test-Time Compute (auch: Inferenz-Skalierung) verfolgt einen anderen Ansatz: Statt das Modell größer zu machen, erhält es zur Laufzeit mehr Zeit und Rechenressourcen, um eine Aufgabe gründlicher zu bearbeiten.

Konkret kann das bedeuten, dass das Modell mehrere Lösungswege parallel durchdenkt, Teilergebnisse bewertet und verwirft oder iterativ seinen eigenen Output überprüft. Dieser Ansatz liegt den modernen Reasoning-Modellen wie o1 oder o3 zugrunde.

Mechanismen der Inferenz-Skalierung

Es gibt verschiedene technische Strategien, um Test-Time Compute effektiv einzusetzen:

Best-of-N: Das Modell erzeugt mehrere Antworten und wählt die beste aus
Beam Search: Paralleles Verfolgen mehrerer Lösungspfade
Iterative Verfeinerung: Das Modell prüft und verbessert seine eigene Antwort
Monte-Carlo-Tree-Search: Strukturiertes Durchsuchen eines Lösungsraums

Rechenzeit vs. Modellgröße

Studien zeigen, dass ein kleineres Modell mit viel Test-Time Compute ein größeres Modell ohne diese Strategie bei komplexen Aufgaben übertreffen kann. Das eröffnet neue Effizienzoptionen.

Relevanz für den Mittelstand

Für Unternehmen bedeutet Test-Time Compute, dass KI-Kosten aufgabenabhängig gesteuert werden können: Routineaufgaben laufen schnell und günstig, kritische Entscheidungen erhalten mehr Rechenbudget. KI-Anbieter wie OpenAI und Anthropic bieten bereits einstellbare Reasoning-Stufen an. IT-Verantwortliche sollten diese Stellschraube kennen und in ihre Kostenplanung einbeziehen.

← Zurück zum Glossar

Test-Time Compute

Was bedeutet Test-Time Compute?

Mechanismen der Inferenz-Skalierung

Rechenzeit vs. Modellgröße

Relevanz für den Mittelstand

Verwandte Begriffe