vLLM

Infrastruktur

Open-Source-Inferenzserver für LLMs – kombiniert PagedAttention, Continuous Batching und eine OpenAI-kompatible API für effizientes Modell-Serving.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was ist vLLM?

vLLM (Virtual LLM) ist ein 2023 an der UC Berkeley entwickeltes Open-Source-Framework, das LLM-Inferenz auf GPU-Hardware drastisch beschleunigt. Kernidee ist PagedAttention: Der KV-Cache wird in diskrete Seiten aufgeteilt, ähnlich der virtuellen Speicherverwaltung eines Betriebssystems, wodurch GPU-Speicher effizienter genutzt und Fragmentierung reduziert wird.

vLLM unterstützt Continuous Batching und Speculative Decoding out of the box und stellt eine OpenAI-kompatible REST-API bereit, sodass bestehende Anwendungen ohne Code-Änderungen umgeleitet werden können.

Unterstützte Modelle und Features

Das Framework unterstützt eine breite Palette von Modellen: LLaMA, Mistral, Qwen, Gemma, Falcon, CodeLlama und weitere. Quantisierungsformate wie GPTQ, AWQ und FP8 werden nativ unterstützt, ebenso Tensor-Parallelismus für Multi-GPU-Setups.

OpenAI-kompatibler Endpunkt: /v1/chat/completions und /v1/completions
PagedAttention: bis zu 24-fach höherer Durchsatz gegenüber HuggingFace Transformers in Tests
Multimodale Modelle (Vision-Language) werden ab vLLM 0.4 unterstützt
Aktive Open-Source-Community mit regelmäßigen Releases und Enterprise-Support-Optionen
Deployment via Docker, Kubernetes oder direkt als Python-Bibliothek

Einstiegsbefehl

vllm serve meta-llama/Llama-3-8B-Instruct – startet binnen Minuten einen produktionstauglichen Inferenzserver mit OpenAI-kompatibler API.

Relevanz für den Mittelstand

vLLM ist der de-facto-Standard für Self-Hosted-LLM-Inferenz und ermöglicht Unternehmen, Open-Source-Modelle auf eigener Hardware mit vertretbarem Aufwand produktiv zu betreiben. Die OpenAI-kompatible API erleichtert die Migration bestehender Integrationen. Für KMU ohne dediziertes ML-Ops-Team sind fertige Docker-Images und die ausführliche Dokumentation ein erheblicher Vorteil.

← Zurück zum Glossar

vLLM

Was ist vLLM?

Unterstützte Modelle und Features

Einstiegsbefehl

Relevanz für den Mittelstand

Verwandte Begriffe