Model Serving

Infrastruktur

Bereitstellung trainierter ML-Modelle als produktive API – umfasst Laufzeitumgebung, Skalierung, Versionierung und Monitoring in der Praxis.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was Model Serving umfasst

Model Serving ist der Betrieb eines trainierten Modells als Dienst, der Anfragen entgegennimmt, das Modell ausführt und Ergebnisse zurückgibt. Es umfasst mehr als nur das Laden einer Modelldatei: Laufzeitoptimierung, Autoscaling, Versionierung (Blue-Green-Deployments, A/B-Tests), Health-Checks und Observability gehören dazu.

Für LLMs kommen spezialisierte Serving-Frameworks wie vLLM, TGI oder TensorRT-LLM zum Einsatz. Für klassische ML-Modelle sind BentoML, Seldon Core, Triton Inference Server oder einfache FastAPI-Dienste verbreitet.

Schlüsselkomponenten

Ein produktionsreifes Serving-Setup braucht mehr als einen Inferenzserver: Vorgelagerte Load-Balancer verteilen Anfragen, ein Model-Registry-System verwaltet Modellversionen, und ein Monitoring-Stack (Latenz, Fehlerrate, Modell-Drift) sichert die Betriebsqualität. Container-Orchestrierung (Kubernetes) ermöglicht elastisches Skalieren.

Inference-Server: vLLM, Triton, TGI, TensorRT-LLM, BentoML
Model Registry: MLflow, Weights & Biases, Hugging Face Hub
Monitoring: Prometheus, Grafana, Evidently AI (Drift-Erkennung)
Skalierung: Kubernetes mit GPU-Node-Pools oder Managed Services (AWS SageMaker, Azure ML)
Deployment-Strategien: Canary, Blue-Green, Shadow-Mode für risikoarme Modellwechsel

Merksatz

Training endet am Modell – Model Serving beginnt dort: Es macht aus einem Artefakt einen zuverlässigen Dienst, der Anfragen beantwortet, skaliert und überwacht werden kann.

Relevanz für den Mittelstand

Viele KMU unterschätzen den Aufwand zwischen fertigem Modell und produktivem Betrieb. Managed Serving-Dienste (z. B. AWS SageMaker Endpoints, Azure ML Online Endpoints) reduzieren diesen Aufwand erheblich, verursachen aber laufende Kosten. Für On-Premise oder datenschutzkritische Szenarien lohnt sich ein schlankes Setup mit vLLM und einfachem Monitoring als Einstiegspunkt.

← Zurück zum Glossar

Model Serving

Was Model Serving umfasst

Schlüsselkomponenten

Merksatz

Relevanz für den Mittelstand

Verwandte Begriffe