vLLM
InfrastrukturOpen-Source-Inferenzserver für LLMs – kombiniert PagedAttention, Continuous Batching und eine OpenAI-kompatible API für effizientes Modell-Serving.
Was ist vLLM?
vLLM (Virtual LLM) ist ein 2023 an der UC Berkeley entwickeltes Open-Source-Framework, das LLM-Inferenz auf GPU-Hardware drastisch beschleunigt. Kernidee ist PagedAttention: Der KV-Cache wird in diskrete Seiten aufgeteilt, ähnlich der virtuellen Speicherverwaltung eines Betriebssystems, wodurch GPU-Speicher effizienter genutzt und Fragmentierung reduziert wird.
vLLM unterstützt Continuous Batching und Speculative Decoding out of the box und stellt eine OpenAI-kompatible REST-API bereit, sodass bestehende Anwendungen ohne Code-Änderungen umgeleitet werden können.
Unterstützte Modelle und Features
Das Framework unterstützt eine breite Palette von Modellen: LLaMA, Mistral, Qwen, Gemma, Falcon, CodeLlama und weitere. Quantisierungsformate wie GPTQ, AWQ und FP8 werden nativ unterstützt, ebenso Tensor-Parallelismus für Multi-GPU-Setups.
- OpenAI-kompatibler Endpunkt: /v1/chat/completions und /v1/completions
- PagedAttention: bis zu 24-fach höherer Durchsatz gegenüber HuggingFace Transformers in Tests
- Multimodale Modelle (Vision-Language) werden ab vLLM 0.4 unterstützt
- Aktive Open-Source-Community mit regelmäßigen Releases und Enterprise-Support-Optionen
- Deployment via Docker, Kubernetes oder direkt als Python-Bibliothek
Einstiegsbefehl
vllm serve meta-llama/Llama-3-8B-Instruct – startet binnen Minuten einen produktionstauglichen Inferenzserver mit OpenAI-kompatibler API.
Relevanz für den Mittelstand
vLLM ist der de-facto-Standard für Self-Hosted-LLM-Inferenz und ermöglicht Unternehmen, Open-Source-Modelle auf eigener Hardware mit vertretbarem Aufwand produktiv zu betreiben. Die OpenAI-kompatible API erleichtert die Migration bestehender Integrationen. Für KMU ohne dediziertes ML-Ops-Team sind fertige Docker-Images und die ausführliche Dokumentation ein erheblicher Vorteil.
← Zurück zum Glossar