Model Serving
InfrastrukturBereitstellung trainierter ML-Modelle als produktive API – umfasst Laufzeitumgebung, Skalierung, Versionierung und Monitoring in der Praxis.
Was Model Serving umfasst
Model Serving ist der Betrieb eines trainierten Modells als Dienst, der Anfragen entgegennimmt, das Modell ausführt und Ergebnisse zurückgibt. Es umfasst mehr als nur das Laden einer Modelldatei: Laufzeitoptimierung, Autoscaling, Versionierung (Blue-Green-Deployments, A/B-Tests), Health-Checks und Observability gehören dazu.
Für LLMs kommen spezialisierte Serving-Frameworks wie vLLM, TGI oder TensorRT-LLM zum Einsatz. Für klassische ML-Modelle sind BentoML, Seldon Core, Triton Inference Server oder einfache FastAPI-Dienste verbreitet.
Schlüsselkomponenten
Ein produktionsreifes Serving-Setup braucht mehr als einen Inferenzserver: Vorgelagerte Load-Balancer verteilen Anfragen, ein Model-Registry-System verwaltet Modellversionen, und ein Monitoring-Stack (Latenz, Fehlerrate, Modell-Drift) sichert die Betriebsqualität. Container-Orchestrierung (Kubernetes) ermöglicht elastisches Skalieren.
- Inference-Server: vLLM, Triton, TGI, TensorRT-LLM, BentoML
- Model Registry: MLflow, Weights & Biases, Hugging Face Hub
- Monitoring: Prometheus, Grafana, Evidently AI (Drift-Erkennung)
- Skalierung: Kubernetes mit GPU-Node-Pools oder Managed Services (AWS SageMaker, Azure ML)
- Deployment-Strategien: Canary, Blue-Green, Shadow-Mode für risikoarme Modellwechsel
Merksatz
Training endet am Modell – Model Serving beginnt dort: Es macht aus einem Artefakt einen zuverlässigen Dienst, der Anfragen beantwortet, skaliert und überwacht werden kann.
Relevanz für den Mittelstand
Viele KMU unterschätzen den Aufwand zwischen fertigem Modell und produktivem Betrieb. Managed Serving-Dienste (z. B. AWS SageMaker Endpoints, Azure ML Online Endpoints) reduzieren diesen Aufwand erheblich, verursachen aber laufende Kosten. Für On-Premise oder datenschutzkritische Szenarien lohnt sich ein schlankes Setup mit vLLM und einfachem Monitoring als Einstiegspunkt.
← Zurück zum Glossar