Inference
InferenzAnwendung eines trainierten Modells auf neue Daten. Im Gegensatz zum Training wird hier nichts gelernt.
Was ist Inference?
Inference (deutsch: Inferenz) bezeichnet die Phase, in der ein fertig trainiertes KI-Modell auf neue, bisher ungesehene Daten angewendet wird, um Vorhersagen oder Ausgaben zu erzeugen. Wenn Sie eine Frage an ChatGPT stellen oder ein Foto von einer Bilderkennungs-App analysieren lassen, findet Inference statt. Im Gegensatz zum Training werden dabei keine Modellgewichte verändert – das Modell wendet sein gelerntes Wissen lediglich an.
Wie funktioniert Inference?
Bei der Inference durchlaufen die Eingabedaten das neuronale Netz in einer Vorwärtsberechnung (Forward Pass): Die Daten werden Schicht für Schicht verarbeitet, wobei die gelernten Gewichte angewendet werden, bis am Ende eine Ausgabe entsteht. Bei einem Sprachmodell werden die Eingabe-Tokens verarbeitet und das Modell erzeugt Token für Token eine Antwort. Die Geschwindigkeit der Inference wird als Latenz gemessen und ist entscheidend für die Nutzererfahrung. Der Durchsatz – wie viele Anfragen pro Sekunde verarbeitet werden können – bestimmt die Skalierbarkeit eines KI-Dienstes.
Inference-Optimierung
Da Inference in Produktionsumgebungen kontinuierlich läuft und den Großteil der KI-Betriebskosten ausmacht, gibt es zahlreiche Optimierungstechniken. Quantisierung reduziert die Rechengenauigkeit von FP32 auf FP16 oder sogar INT8/INT4, um Geschwindigkeit zu gewinnen und Speicher zu sparen. Model Pruning entfernt unwichtige Verbindungen im Netzwerk. Knowledge Distillation überträgt das Wissen eines großen Modells in ein kleineres, effizienteres Modell. Spezialisierte Hardware wie NVIDIA TensorRT oder Google TPUs ist explizit für schnelle Inference optimiert.
Warum ist Inference wichtig?
Während das Training einmalig oder periodisch stattfindet, läuft Inference in der Regel rund um die Uhr und bei jedem einzelnen Nutzeraufruf. Die Inference-Kosten übersteigen daher langfristig die Trainingskosten bei Weitem. Für Unternehmen, die KI-Dienste bereitstellen, sind Inference-Geschwindigkeit und -Kosten oft der entscheidende Faktor für die Wirtschaftlichkeit der gesamten KI-Lösung.
Verwandte Begriffe
FP16/FP32 · INT4/INT8 · Quantisierung · LLM · Parameter · GPU
← Zurück zum Glossar