Welches Open-Weight-Modell laeuft auf welcher Hardware? Der On-Prem-GPU-Sizing-Guide 2026
Brauchbare Coding- und Assistenz-Qualitaet beginnt 2026 schon auf einer einzelnen GPU im eigenen Serverraum – kein Cloud-Zwang. Mit frischen Releases wie Devstral Small 2, Qwen3.6-27B und Llama 4 Scout zeigen wir konkret, welches Modell auf welcher Karte laeuft, wie viel VRAM Sie brauchen und was die Hardware ueber 5 Jahre kostet.
24B
Workstation
109B MoE
284B MoE
Die haeufigste Frage in unseren Hardware-Workshops lautet 2026 nicht mehr „Geht das ueberhaupt lokal?", sondern „Welche Karte brauche ich konkret?". Die gute Nachricht: Der Einstieg in produktive On-Premise-KI ist deutlich guenstiger geworden, als die meisten Entscheider annehmen. Ein einzelnes Open-Weight-Modell der aktuellen Generation liefert auf einer Consumer-Karte fuer 1.800 Euro brauchbare Coding- und Assistenz-Qualitaet – im eigenen Serverraum, ohne dass ein einziges Dokument das Haus verlaesst.
Dieser Guide uebersetzt die abstrakte Frage nach der Hardware in konkrete Zahlen. Sie erfahren, wie sich der VRAM-Bedarf eines Modells berechnen laesst, welches Modell auf welcher GPU laeuft, und was jede Ausbaustufe ueber fuenf Jahre wirklich kostet. Am Ende koennen Sie Ihren eigenen Bedarf in vier Schritten selbst abschaetzen.
VRAM verstehen: Die wichtigste Kennzahl
Beim Hardware-Sizing fuer Inferenz entscheidet eine einzige Groesse ueber fast alles: der verfuegbare Grafikspeicher, der VRAM. Passt ein Modell nicht vollstaendig in den VRAM, faellt der Durchsatz dramatisch ab oder das Modell startet gar nicht. Der Speicherbedarf setzt sich aus drei Komponenten zusammen: den Modellgewichten, dem KV-Cache und einem Aktivierungs-Overhead.
Der groesste Block sind die Gewichte. Ihr Speicherbedarf haengt direkt von zwei Faktoren ab: der Parameterzahl und der Praezision, in der diese gespeichert werden. Hier hilft eine einfache Faustformel je Quantisierungsstufe:
- FP16 (volle Praezision): rund 2 GB VRAM pro Milliarde Parameter. Ein 27B-Modell belegt damit etwa 54 GB.
- INT8 (halbiert): rund 1 GB pro Milliarde Parameter. Dasselbe 27B-Modell passt in etwa 27 GB.
- INT4 / NVFP4 (geviertelt): rund 0,5 GB pro Milliarde Parameter. Ein 27B-Modell belegt nur noch etwa 14 GB – und passt damit in eine 24-GB-Karte.
Hinzu kommt der KV-Cache. Er speichert die Zwischenergebnisse bereits verarbeiteter Tokens und waechst mit der Kontextlaenge und – entscheidend fuer den Mehrbenutzerbetrieb – mit der Zahl gleichzeitiger Anfragen. Bei langen Kontexten und vielen parallelen Nutzern kann der KV-Cache mehrere Gigabyte zusaetzlich beanspruchen. Als Daumenregel sollten Sie 15 bis 25 Prozent Reserve ueber dem reinen Gewichtsbedarf einplanen.
Die Quantisierungs-Faustregel fuers Sizing: Multiplizieren Sie die Parameterzahl in Milliarden mit dem Faktor Ihrer Praezision – 2 fuer FP16, 1 fuer INT8, 0,5 fuer INT4/NVFP4. Das Ergebnis ist der grobe VRAM-Bedarf der Gewichte in Gigabyte. Schlagen Sie rund 20 % fuer KV-Cache und Overhead auf, und Sie wissen, ob das Modell auf Ihre Karte passt. Beispiel: 27 Mrd. × 0,5 = 13,5 GB + 20 % ≈ 16 GB → passt auf eine 24-GB-Karte.
Single-GPU: Was auf einer Karte laeuft
Die wichtigste Erkenntnis fuer den Mittelstand: Eine einzige Karte reicht 2026 fuer einen Grossteil der praktischen Use-Cases. Drei aktuelle Modelle illustrieren das gut.
Devstral Small 2 (24B) auf der RTX 4090
Mistrals Coding-Spezialist Devstral Small 2 erreicht mit 24 Milliarden Parametern 68 % auf SWE-bench Verified – ein Wert, der noch vor einem Jahr deutlich groesseren Modellen vorbehalten war. Quantisiert laeuft das Modell auf einer einzelnen NVIDIA RTX 4090 mit 24 GB oder sogar auf einem Mac mit 32 GB gemeinsam genutztem Speicher. Fuer eine Entwicklungsabteilung, die einen lokalen Coding-Assistenten sucht, ist das die guenstigste sinnvolle Einstiegsstufe.
Qwen3.6-27B auf 24 GB bzw. H100
Das Allzweck-Modell Qwen3.6-27B (bzw. Qwen3.5-27B) deckt Chat, Dokumentenanalyse und RAG-Anwendungen ab. Quantisiert passt es in eine 24-GB-Karte, fuer hoehere Durchsaetze und mehr parallele Nutzer empfiehlt sich eine H100. Bereitgestellt wird es ueblicherweise per vLLM mit OpenAI-kompatibler API – Ihre bestehenden Tools sprechen das Modell also ohne Anpassung an.
Llama 4 Scout auf einem H100-80GB-Knoten
Metas Llama 4 Scout ist ein Mixture-of-Experts-Modell, das trotz hoher Gesamtparameterzahl auf einem einzelnen H100-80GB-Knoten mit produktiver Latenz laeuft. Es ist die Wahl, wenn Sie maximale Qualitaet aus einer einzelnen Karte holen wollen, ohne in einen Cluster zu investieren.
| Modell | Minimale GPU | Quantisierung | Anwendungsfall |
|---|---|---|---|
| Devstral Small 2 (24B) | RTX 4090 (24 GB) | INT4 / GGUF | Coding-Assistenz |
| Qwen3.6-27B | RTX 4090 / 1× H100 | INT4 bis FP16 | Chat, RAG, Analyse |
| Llama 4 Scout | 1× H100 (80 GB) | FP8 / INT4 | Premium-Assistenz |
Workstation-Klasse: 96 GB am Schreibtisch
Zwischen der einzelnen Consumer-Karte und dem Rechenzentrums-Cluster liegt 2026 eine attraktive Mittelklasse: die Workstation-GPU. Die RTX PRO 6000 bietet mit 96 GB den groessten Workstation-VRAM am Markt – mehr als eine H100 und das in einem Format, das unter den Schreibtisch oder in einen kompakten Tower passt.
Mit 96 GB verschiebt sich die erreichbare Modellklasse deutlich nach oben. In Kombination mit modernen FP4-Formaten laesst sich damit die 120B-Klasse lokal betreiben – Modelle, die noch vor Kurzem ausschliesslich im Rechenzentrum liefen. Der Hebel dafuer heisst NVFP4: ein 4-Bit-Gleitkommaformat, das die Speicheranforderungen gegenueber FP16 viertelt und dabei nahezu die volle Qualitaet erhaelt.
Praxisbeispiel: Abteilungsweiter KI-Server fuer ein 80-Personen-Unternehmen
Ein mittelstaendischer Anlagenbauer wollte einen gemeinsamen KI-Assistenten fuer Konstruktion, Vertrieb und Support – ohne Cloud, da Konstruktionsdaten das Haus nicht verlassen duerfen. Statt eines teuren Rechenzentrums-Servers fiel die Wahl auf eine einzelne Workstation mit RTX PRO 6000 (96 GB). Darauf laeuft per vLLM ein Modell der 120B-Klasse in NVFP4-Quantisierung, das ueber eine OpenAI-kompatible API allen drei Abteilungen zur Verfuegung steht. Anschaffung im niedrigen fuenfstelligen Bereich, Betrieb im normalen Serverschrank, volle Datensouveraenitaet. Fuer rund 40 gleichzeitig aktive Nutzer reicht die Karte komfortabel.
Die Workstation-Klasse ist damit der Sweet Spot fuer viele Mittelstaendler: deutlich mehr Kopffreiheit als eine 24-GB-Karte, aber ohne die Komplexitaet und die Stromkosten eines Multi-GPU-Clusters.
Cluster: Wenn es das grosse Modell sein muss
Es gibt Anwendungsfaelle, in denen nur das groesste Modell genuegt – etwa anspruchsvolle Reasoning-Aufgaben oder sehr hohe gleichzeitige Nutzerzahlen. Dann fuehrt kein Weg an mehreren GPUs vorbei. Die zugrunde liegende Technik heisst Tensor-Parallelism: Ein einzelnes Modell wird ueber mehrere Karten aufgeteilt, sodass jede Karte einen Teil jeder Rechenoperation uebernimmt. Voraussetzung ist eine schnelle Verbindung zwischen den GPUs (NVLink), damit der Kommunikations-Overhead nicht den Geschwindigkeitsgewinn auffrisst.
Modelle wie DeepSeek V4-Pro (284B Gesamtparameter) erfordern einen Verbund der 8×-H200-Klasse. Auch das verwandte DeepSeek V4-Flash (284B gesamt, 13B aktiv pro Token) gilt als Self-Hosting-Standout fuer die 80-GB-Klasse, da seine Mixture-of-Experts-Architektur pro Anfrage nur einen Bruchteil der Parameter aktiviert.
Das folgende GPU-Cheat-Sheet gibt eine Orientierung, welche Modellklasse welche Hardware verlangt. Die Mietkosten dienen ausschliesslich als Referenzgroesse fuer den Vergleich – fuer Dauerbetrieb ist eigene Hardware in aller Regel guenstiger (siehe Kostenkapitel).
| Modell | GPU-Anzahl | Mietkosten/Std. (Referenz) |
|---|---|---|
| Qwen 3.5 27B | 1× H100 | ~2,50 USD |
| Llama 4 Scout | 1× H100 | ~2,50 USD |
| DeepSeek V3.2 / V4-Pro | 8× H200 | ~36 USD |
Der Inferenz-Stack: vLLM und Quantisierung
Hardware allein liefert keine Antworten – es braucht eine Inferenz-Software, die das Modell effizient auf die GPU bringt. Der De-facto-Standard fuer den professionellen Eigenbetrieb ist 2026 vLLM. Es stellt eine OpenAI-kompatible API bereit, sodass bestehende Anwendungen, RAG-Pipelines und Chat-Frontends ohne Codeaenderung angebunden werden koennen. Der entscheidende technische Vorteil von vLLM ist PagedAttention: ein Verfahren, das den KV-Cache wie virtuellen Arbeitsspeicher in Bloecken verwaltet und so den VRAM deutlich besser ausnutzt – mehr parallele Anfragen pro Karte, hoeherer Durchsatz.
Die zweite Stellschraube ist das Quantisierungsformat. Hier haben sich mehrere Standards etabliert, die je nach Einsatzzweck sinnvoll sind:
- GGUF: Das flexible Format fuer CPU- und gemischten Betrieb, ideal fuer Workstations und kleinere Karten ueber Backends wie llama.cpp.
- INT4: Der bewaehrte 4-Bit-Standard, der Modelle auf ein Viertel des FP16-Bedarfs schrumpft – die Basis vieler Single-GPU-Setups.
- NVFP4 / FP4: Das moderne 4-Bit-Gleitkommaformat von NVIDIA, das bei aehnlichem Speicherbedarf wie INT4 eine bessere Qualitaet erreicht und auf aktuellen Karten hardwarebeschleunigt laeuft.
Praxis: Ein Modell per vLLM auf einer Karte bereitstellen
Ein typisches Single-GPU-Setup sieht so aus: vLLM wird mit dem gewuenschten Modell (z. B. Qwen3.6-27B in INT4) gestartet und stellt automatisch eine OpenAI-kompatible API auf Port 8000 bereit. PagedAttention sorgt dafuer, dass mehrere Mitarbeiter gleichzeitig Anfragen stellen koennen, ohne dass der VRAM ueberlaeuft. Frontends wie Open WebUI oder Ihre eigene Anwendung verbinden sich anschliessend gegen genau dieselbe API, die Sie sonst von einem Cloud-Anbieter ansprechen wuerden – nur dass die Daten Ihr Netzwerk nie verlassen. Wie ein solcher Stack auch ohne Internetanbindung vollstaendig abgeschottet betrieben wird, zeigen wir im Detail in unserem Beitrag zum Eigenbetrieb von Open-Weight-Modellen.
Was jede Stufe ueber 5 Jahre kostet
Die Anschaffung einer GPU ist nur ein Teil der Rechnung. Ueber einen typischen Betriebszeitraum von fuenf Jahren kommen Stromkosten, Kuehlung und Wartung hinzu. Dennoch zeigt sich klar: Fuer kontinuierlichen Betrieb ist eigene Hardware fast immer guenstiger als die dauerhafte Anmietung. Die folgende Tabelle gibt grobe CAPEX-Bandbreiten je Ausbaustufe – als Orientierung, nicht als verbindliches Angebot.
| Stufe | Anschaffung (CAPEX) | Strom (5 J., grob) | Typische Nutzerzahl |
|---|---|---|---|
| Single-GPU (RTX 4090) | ca. 4.000–7.000 € | ca. 1.500–2.500 € | 5–15 Nutzer |
| Workstation (RTX PRO 6000) | ca. 12.000–20.000 € | ca. 2.500–4.000 € | 20–50 Nutzer |
| Single H100-Server | ca. 30.000–45.000 € | ca. 4.000–6.000 € | 50–150 Nutzer |
| 8× H200-Cluster | ca. 250.000–400.000 € | ca. 30.000–50.000 € | Grossmodelle / 100+ |
Die Zahlen verdeutlichen, warum der Einstieg fuer die meisten Mittelstaendler auf den unteren beiden Stufen stattfindet. Eine belastbare Gegenueberstellung von Kauf und Cloud-Miete fuer Ihr konkretes Lastprofil liefert unser TCO-Rechner – inklusive Strom, Abschreibung und Nutzungsgrad.
Sizing-Entscheidung in 4 Schritten
Sie muessen kein GPU-Experte sein, um die richtige Hardwarestufe zu bestimmen. Die folgende Checkliste fuehrt Sie in vier Schritten zur Entscheidung:
- Use-Case und Qualitaetsanspruch klaeren: Geht es um Coding-Assistenz, Dokumentenanalyse, einen internen Chatbot oder anspruchsvolles Reasoning? Wie viele Mitarbeiter nutzen das System gleichzeitig? Je hoeher Qualitaetsanspruch und Parallelnutzung, desto groesser die noetige Karte.
- Modell auswaehlen: Waehlen Sie ein on-premise-faehiges Open-Weight-Modell, das Ihren Use-Case abdeckt – etwa Devstral Small 2 fuer Code, Qwen3.6-27B als Allrounder oder Llama 4 Scout fuer Premium-Qualitaet.
- VRAM-Bedarf berechnen: Wenden Sie die Quantisierungs-Faustregel an: Parameter (Mrd.) × Praezisionsfaktor + 20 % Reserve. So wissen Sie, welche Speichergroesse die Karte mindestens haben muss.
- GPU-Klasse waehlen: Ordnen Sie den errechneten Bedarf einer Stufe zu – 24-GB-Karte, 96-GB-Workstation, H100 oder Cluster. Planen Sie Reserve fuer wachsende Nutzerzahlen ein.
Als Faustempfehlung fuer typische Mittelstandsgroessen: Ein kleines Team (bis 15 Nutzer) faehrt mit einer RTX-4090-Karte und einem 24B-Modell sehr guenstig. Eine Abteilung (20–50 Nutzer) ist mit einer RTX PRO 6000 ideal aufgestellt. Wer 50 bis 150 Nutzer oder hoechste Qualitaet braucht, greift zum H100-Server. Den Cluster benoetigen nur Organisationen, die zwingend die groessten Modelle selbst hosten muessen.
Bei der konkreten Auslegung – von der Modellauswahl ueber die Dimensionierung des KI-Systems bis zur Integration in Ihre On-Premise-Infrastruktur – unterstuetzen wir Sie herstellerunabhaengig und mit Blick auf Ihre Datensouveraenitaet.
Haeufig gestellte Fragen zum GPU-Sizing
Reicht eine einzelne GPU fuer den Unternehmenseinsatz?
Fuer viele Mittelstands-Use-Cases ja. Modelle wie Devstral Small 2 (24B) oder Qwen3.6-27B laufen auf einer einzelnen RTX 4090 bzw. H100 und liefern fuer Coding-Assistenz, Dokumentenanalyse und Chatbots gute Qualitaet. Erst sehr grosse Modelle oder hohe gleichzeitige Nutzerzahlen erfordern mehrere GPUs.
Wie viel VRAM brauche ich fuer ein bestimmtes Modell?
Als grobe Faustregel braucht ein Modell in FP16 etwa zwei Gigabyte VRAM pro Milliarde Parameter, in INT4-Quantisierung nur rund ein halbes Gigabyte. Ein 27B-Modell passt quantisiert damit in eine 24-GB-Karte. Hinzu kommt Speicher fuer den KV-Cache, der mit der Kontextlaenge und der Zahl gleichzeitiger Anfragen waechst.
Was bringt Quantisierung beim Sizing?
Quantisierung reduziert die Praezision der Gewichte und damit den Speicherbedarf drastisch - oft um den Faktor vier von FP16 auf INT4 oder NVFP4. Moderne Formate erreichen das bei nahezu unveraenderter Qualitaet. Dadurch passen Modelle auf kleinere, guenstigere Karten und der Durchsatz steigt.
Soll ich kaufen oder GPUs mieten?
Fuer stabilen Dauerbetrieb ist eigene Hardware ueber 3-5 Jahre meist guenstiger und datensouveraener. Mieten lohnt fuer kurze Lastspitzen, Prototyping oder den Test eines grossen Modells vor der Anschaffung. Unser TCO-Rechner vergleicht beide Pfade fuer Ihr Lastprofil.
Die richtige GPU fuer Ihr Modell – wir rechnen es durch
Sagen Sie uns Use-Case und Nutzerzahl, wir dimensionieren Ihr On-Premise-KI-System herstellerunabhaengig und DSGVO-konform. Kostenlose Erstberatung, konkrete Hardware-Empfehlung.