Kubernetes
InfrastrukturContainer-Orchestrierung für skalierbare Deployments – verwaltet automatisches Scaling, Selbstheilung und Rolling Updates für ML-Workloads.
Grundkonzept
Kubernetes (K8s) automatisiert das Deployment, die Skalierung und den Betrieb containerisierter Anwendungen. Ein Cluster besteht aus einem Control Plane (koordiniert den Zustand) und Worker Nodes (führen Container aus). Workloads werden als Pods deklariert – der kleinsten deploybaren Einheit.
Für ML-Workloads relevant ist vor allem die native Unterstützung für GPU-Ressourcen via NVIDIA Device Plugin: Pods können explizit GPUs anfordern, und der Scheduler weist sie entsprechend zu.
ML- und LLM-spezifische Nutzung
Im KI-Kontext bildet Kubernetes die Grundlage für Plattformen wie Kubeflow (ML-Pipelines), KServe (Modell-Serving) und Ray (verteiltes Training/Serving). Horizontal Pod Autoscaler (HPA) und KEDA (event-driven scaling) erlauben automatische Skalierung basierend auf Anfragelast oder Queue-Länge.
- GPU-Scheduling: Pods können nvidia.com/gpu als Ressource anfordern
- Persistent Volumes für Modell-Artefakte und Trainingsdaten
- Namespaces und RBAC für Mandantentrennung in geteilten Clustern
- Helm-Charts für Standard-Deployments (vLLM, Triton, JupyterHub) verfügbar
- Managed Kubernetes: EKS (AWS), AKS (Azure), GKE (Google) reduzieren Betriebsaufwand
Merksatz
Kubernetes ist die Infrastrukturschicht unterhalb jedes modernen ML-Deployments: Es sorgt dafür, dass Modelle laufen, neu starten wenn sie abstürzen, und skalieren wenn es nötig ist.
Relevanz für den Mittelstand
Kubernetes lohnt sich ab einer gewissen Komplexität: mehrere Modelle, mehrere Teams, Hochverfügbarkeit. Für den Einstieg können kleinere Unternehmen mit K3s (leichtgewichtige K8s-Distribution) oder Managed-Angeboten beginnen, ohne eigene Expertise aufzubauen. Die Lernkurve ist steil – für einfache Einzelmodell-Deployments kann ein Docker-Compose-Setup zunächst ausreichen.
← Zurück zum Glossar