Alle Artikel
Blackwell 12. Juni 2026 11 Min. Lesezeit

NVIDIA Blackwell für On-Premise-KI: Von der Theorie zur ROI-Realität

Mit B200 und GB200 NVL72 ist 2026 die Hardware-Generation da, die On-Premise-KI wirtschaftlich macht: bis zu 5,8x mehr Durchsatz als H100 und Inferenzkosten um 0,02 USD pro Million Tokens. Für Mittelständler kippt damit die Make-or-Buy-Entscheidung. Dieser Deep-Dive rechnet Leistung, Kosten und Break-even durch.

On-Premise-KI ROI-Dashboard – Blackwell vs. Hopper
Durchsatz · Tokens/s (Llama 2 70B)
~3.000
H100
17.500
B200
≈ 5,8x Durchsatz
Inferenzkosten · USD/Mio. Token
0,20
0,10
0,05
0,02
Volta → Ampere → Hopper → Blackwell
Kumulierte Kosten über Zeit · Cloud vs. On-Premise
Break-even < 4 Monate
Cloud (pro Token)
On-Premise (CapEx)

Über Jahre galt On-Premise-KI als Premium-Variante für Datenschutz-Fanatiker: technisch schön, aber wirtschaftlich kaum gegen die Hyperscaler zu rechnen. Mit der Blackwell-Generation von NVIDIA hat sich diese Gleichung 2026 grundlegend verschoben. B200 und das Rack-System GB200 NVL72 liefern so viel Durchsatz pro Watt und pro Euro, dass eigene Hardware bei stabiler Auslastung die Cloud nicht nur beim Datenschutz, sondern auch bei den reinen Kosten schlägt.

Dieser Artikel ist ein technischer Deep-Dive für Entscheider im Mittelstand. Wir schauen uns die Architektur an, vergleichen den Durchsatz mit der Vorgängergeneration Hopper, rechnen die Inferenzkosten pro Million Tokens durch und zeigen, ab wann sich eine eigene GPU-Infrastruktur amortisiert. Ziel: eine belastbare Make-or-Buy-Entscheidung statt Bauchgefühl.

Blackwell-Architektur im Überblick

Blackwell ist NVIDIAs Nachfolgearchitektur von Hopper (H100/H200). Der zentrale Baustein für KI-Workloads ist die B200 – eine GPU mit deutlich höherer Speicherbandbreite, mehr VRAM und nativer Unterstützung für das neue Rechenformat FP4. Genau diese drei Faktoren entscheiden über die Eignung für Inferenz großer Sprachmodelle.

NVIDIA gibt für das Komplettsystem DGX B200 rund die dreifache Trainings- und bis zur fünfzehnfachen Inferenzleistung gegenüber dem Vorgänger DGX H100 an. Möglich wird das durch eine zweite Generation der Transformer-Engine, die das niedrig aufgelöste NVFP4-Format ausnutzt – ohne dabei die Antwortqualität spürbar zu verschlechtern.

GB200 NVL72: ein Rack als eine GPU

Für sehr große Modelle setzt NVIDIA auf das Rack-System GB200 NVL72: 72 Blackwell-GPUs und 36 Grace-CPUs sind über NVLink so eng gekoppelt, dass das gesamte Rack wie ein einziger riesiger Beschleuniger arbeitet. Für Modelle mit Billionen von Parametern (Trillion-Parameter-Modelle) verspricht NVIDIA damit bis zu 30x höheren Inferenz-Durchsatz gegenüber einer vergleichbaren Hopper-Konfiguration. Für die meisten Mittelständler ist NVL72 überdimensioniert – relevant ist es als Referenzpunkt für die Skalierbarkeit der Architektur.

NVFP4: der eigentliche Effizienz-Hebel

Das neue Format NVFP4 verdoppelt die Recheneffizienz gegenüber FP8 bei vergleichbarer Genauigkeit. Praktisch heißt das: Pro Watt und pro Chipfläche lassen sich rund doppelt so viele Tokens verarbeiten. Damit verschiebt sich die Wirtschaftlichkeit nicht nur über schnellere Chips, sondern auch über ein effizienteres Zahlenformat – ein Punkt, auf den wir im Abschnitt zur Quantisierung zurückkommen.

Kernaussage: Blackwell macht On-Premise-KI nicht durch ein einzelnes Feature wirtschaftlich, sondern durch das Zusammenspiel aus mehr Speicherbandbreite, FP4-Rechenwerken und enger NVLink-Kopplung. Das Ergebnis ist ein Sprung beim Durchsatz pro Euro, nicht nur bei der Rohleistung.

Durchsatz: B200 vs. H100

Die für die Wirtschaftlichkeit entscheidende Kennzahl ist nicht FLOPS, sondern Tokens pro Sekunde im realen Serving-Betrieb. Hier zeigt Blackwell seine Stärke am deutlichsten.

In NVIDIAs Inferenz-Benchmarks erreicht eine B200-Konfiguration auf Llama 2 70B bis zu rund 17.500 Tokens/s – gegenüber etwa 3.000 Tokens/s auf H100. Das entspricht etwa 5,8x mehr Durchsatz bei gleicher Aufgabe. Dieser Sprung resultiert aus dem Zusammenspiel von FP4, höherer Speicherbandbreite und verbessertem Model-Serving über NVIDIAs Inferenz-Stack.

Der wirtschaftliche Kern dahinter: Mehr Durchsatz pro Server bedeutet mehr gleichzeitige Nutzer pro Server. Wo Sie früher drei H100-Knoten für eine bestimmte Nutzerlast brauchten, genügt nun oft ein einziger B200-Knoten. Das reduziert nicht nur die Anschaffungskosten, sondern auch Strom, Kühlung, Stellfläche und Wartungsaufwand – alles Posten, die im Total Cost of Ownership (TCO) schnell dominieren.

Kennzahl H100 (Hopper) B200 (Blackwell) Faktor
Inferenz-Durchsatz (Llama 2 70B) ~3.000 Tokens/s ~17.500 Tokens/s ~5,8x
Inferenzkosten / Mio. Token ~0,09 USD ~0,02 USD ~4,5x günstiger
Rechenformat FP8 / FP16 NVFP4 / FP8 ~2x Effizienz
Inferenz-Skalierung (Rack, Trillion-Param.) Referenz GB200 NVL72 bis 30x

Wichtig zur Einordnung: Die genannten Werte stammen aus Hersteller- und Branchen-Benchmarks (NVIDIA, ergänzt um Analysen von Häusern wie SemiAnalysis) und gelten für optimierte Konfigurationen. In der Praxis hängt der reale Durchsatz stark von Modellgröße, Kontextlänge, Batch-Größe und Serving-Stack ab. Als Größenordnung sind die Faktoren aber belastbar.

Inferenzkosten pro Million Tokens

Die aussagekräftigste Einheit für die Wirtschaftlichkeit von KI im Betrieb sind die Kosten pro Million erzeugter Tokens. Hier zeigt sich der Generationssprung am deutlichsten: Während Hopper-Hardware grob bei 0,09 USD pro Million Tokens liegt, drückt Blackwell mit FP4 diesen Wert auf rund 0,02 USD.

Betrachtet man die letzten GPU-Generationen, ergibt sich eine markante Kostenkurve nach unten: von etwa 20 Cent über 10 Cent und 5 Cent bis hin zu rund 2 Cent pro Million Tokens. Jede Generation hat die Inferenzkosten ungefähr halbiert – Blackwell setzt diesen Trend fort und macht damit Anwendungsfälle wirtschaftlich, die vor zwei Jahren noch defizitär waren.

Ein oft unterschätzter Treiber dieser Kurve sind die Energiekosten. FP4 verdoppelt die Tokens-per-Watt: Bei gleicher Stromrechnung verarbeiten Sie doppelt so viele Anfragen. Angesichts steigender Strompreise in Deutschland wird Energieeffizienz zum wachsenden TCO-Faktor – und genau hier spielt Blackwell seinen strukturellen Vorteil aus.

Praxisbeispiel: Versicherungs-Dienstleister mit Dokumentenanalyse
Ein mittelständischer Dienstleister verarbeitet pro Monat rund 2 Milliarden Tokens für automatisierte Dokumentenanalyse und Sachbearbeitung. Über eine Cloud-API mit Token-Abrechnung lag die monatliche Rechnung im niedrigen sechsstelligen Bereich – mit unangenehmer Schwankung je nach Lastspitze. Nach Umstieg auf einen eigenen B200-Knoten mit quantisiertem Open-Source-Modell sanken die laufenden Kosten auf Strom, Wartung und Abschreibung. Bei rund 0,02 USD pro Million Tokens entspricht das Verarbeitungsvolumen rechnerisch etwa 40 USD reinen Rechenkosten – der Rest des früheren API-Preises war Marge und Bequemlichkeitsaufschlag des Anbieters.

FP4/FP8 und Quantisierung als Hebel

Die beeindruckenden Kostenwerte von Blackwell setzen eine wichtige Technik voraus: Quantisierung. Dabei werden die Gewichte und Aktivierungen eines Modells von hoher Präzision (etwa FP16) auf niedrigere Formate wie FP8 oder FP4 reduziert. Das spart Speicher, erhöht den Durchsatz und senkt den Energiebedarf – die Frage ist nur, wie viel Genauigkeit dabei verloren geht.

Die gute Nachricht: erstaunlich wenig. Aktuelle Messungen zeigen, dass FP8-quantisierte Modelle auf anspruchsvollen Benchmarks wie MMLU-Pro nur rund 0,4 Punkte hinter ihren FP16-Pendants liegen – ein in der Praxis kaum spürbarer Unterschied. FP4 auf Blackwell geht noch einen Schritt weiter und maximiert den Durchsatz, mit NVFP4 bei sorgfältiger Kalibrierung weiterhin bei sehr guter Qualität.

Quantisierung wirkt dabei auf zwei Ebenen wirtschaftlich:

  • Weniger VRAM-Bedarf: Ein FP4-Modell belegt nur einen Bruchteil des Speichers eines FP16-Modells. Damit passen größere Modelle auf dieselbe GPU – oder dasselbe Modell auf günstigere Hardware.
  • Höhere Modell-Dichte: Sie können entweder ein deutlich größeres Modell betreiben oder mehrere Modelle parallel auf einer GPU servieren, was die Auslastung verbessert.
  • KV-Cache-Quantisierung: Bei langen Kontexten (Long-Context) wird der Key-Value-Cache zum Speicherfresser. Auch dieser lässt sich quantisieren und gibt VRAM für mehr parallele Anfragen frei.

Für die Praxis heißt das: Quantisierung ist kein Kompromiss, sondern der zentrale Hebel, um Blackwell-Hardware optimal auszulasten und die GPU-Anzahl – und damit die Investition – klein zu halten.

Break-even-Rechnung

Kommen wir zum Kern der Make-or-Buy-Entscheidung. Die entscheidende Frage lautet nicht „Ist On-Premise billiger?", sondern „Ab welcher Auslastung ist On-Premise billiger?". Denn eine eigene GPU verursacht ihre Kosten unabhängig davon, ob sie rechnet oder im Leerlauf steht – die Cloud rechnet dagegen pro Token ab.

Branchenanalysen und unsere eigenen Projektrechnungen zeigen ein konsistentes Bild: Bei einer GPU-Auslastung von 80 % und mehr liegt der Break-even gegenüber Hyperscale-Cloud unter vier Monaten. Danach produziert die eigene Hardware Tokens zu einem Bruchteil der Cloud-Kosten. Über einen typischen Abschreibungszeitraum von drei bis vier Jahren fällt der Mehrjahres-TCO klar zugunsten eigener Hardware aus – vorausgesetzt, die Last ist stabil.

Genau hier liegt der kritische Punkt: Auslastung ist der entscheidende Wirtschaftlichkeitsfaktor. Eine zu 30 % ausgelastete B200 ist teurer als die Cloud. Eine zu 85 % ausgelastete B200 ist konkurrenzlos günstig. Die gesamte Rechnung steht und fällt mit einem realistischen Lastprofil.

Hybrid als pragmatischer Mittelweg: Viele Mittelständler fahren am besten mit einem geteilten Modell – die planbare Produktionslast läuft auf eigener Blackwell-Hardware, während Lastspitzen und gelegentliches Training in die Cloud ausgelagert werden. So sichern Sie hohe Auslastung der eigenen GPUs und vermeiden teures Überdimensionieren.

Wer die Zahlen für das eigene Szenario durchspielen möchte, findet in unserem KI-ROI-Rechner einen schnellen Einstieg, um Auslastung, Tokenvolumen und Hardwarekosten gegeneinander zu stellen.

Souveränität als zusätzlicher Nutzen

Selbst wenn die reine Kostenrechnung knapp ausfiele, gibt es einen zweiten, oft ausschlaggebenden Grund für eigene Hardware: Datensouveränität. Bei On-Premise-KI verlassen Ihre Daten zu keinem Zeitpunkt das Unternehmen – ein massiver Vorteil bei DSGVO und EU AI Act.

Konkret bedeutet das:

  • DSGVO und EU AI Act leichter erfüllbar: Keine Datenübermittlung an Dritte, keine komplexen Auftragsverarbeitungsverträge, keine Drittlandtransfers in die USA. Personenbezogene Daten und Geschäftsgeheimnisse bleiben im Haus.
  • Kein Preisrisiko: Keine pro-Token-Abrechnung und keine plötzlichen Preiserhöhungen oder Modell-Abkündigungen seitens eines Anbieters. Ihre Kalkulation bleibt über Jahre stabil.
  • Volle Kontrolle über Modelle und Updates: Sie entscheiden, welches Modell in welcher Version läuft – und wann Sie aktualisieren. Keine erzwungenen Wechsel, keine stillen Verhaltensänderungen.
  • Planbare Kosten: Aus variablen, schwer prognostizierbaren Cloud-Rechnungen werden kalkulierbare Abschreibungs- und Betriebskosten.

Für regulierte Branchen – Gesundheitswesen, Finanzdienstleistung, öffentliche Verwaltung – ist dieser Punkt häufig nicht verhandelbar. Blackwell macht es nun erfreulich, dass die compliance-sichere Variante zugleich auch die wirtschaftlich attraktivere sein kann.

Richtig dimensionieren

Die beste Hardware nützt nichts, wenn sie falsch dimensioniert ist. Eine überdimensionierte Anlage steht im Leerlauf und ruiniert den ROI; eine zu kleine bremst die Anwendung aus. Folgende Schritte führen zur richtigen Auslegung:

  1. Workload-Profil erfassen: Wie viele Anfragen pro Tag und zur Spitzenzeit? Welche durchschnittliche und maximale Kontextlänge? Welches Latenzziel pro Antwort? Ohne diese Zahlen ist jede Dimensionierung Raten.
  2. Auslastung realistisch schätzen: Rechnen Sie mit echten Lastkurven, nicht mit Wunschwerten. Leerlauf killt den ROI – planen Sie lieber etwas knapper und ergänzen Sie Spitzen über Cloud-Bursting.
  3. Mit quantisierten Modellen optimieren: Prüfen Sie, ob ein FP8- oder FP4-Modell die GPU-Anzahl reduziert. Häufig läuft ein Anwendungsfall mit einem quantisierten Modell auf einer statt zwei GPUs – bei kaum messbarem Qualitätsverlust.
  4. TCO vollständig rechnen: Anschaffung ist nur ein Teil. Wartung, Strom, Kühlung, Stellfläche und Personal gehören in die Rechnung. Erst die Vollkostenbetrachtung zeigt den ehrlichen Vergleich zur Cloud.

Bei der Auslegung und dem schlüsselfertigen Betrieb unterstützen wir Sie mit unserem KI-Full-Stack-Providing – von der Hardware-Auswahl über das Modell-Serving bis zum laufenden Betrieb. Wer lieber eine fertige Appliance möchte, findet im Bereich KI-System vorkonfigurierte On-Premise-Lösungen.

Praxisbeispiel: Maschinenbauer dimensioniert pragmatisch
Ein Maschinenbauer mit rund 400 Mitarbeitern wollte einen internen KI-Assistenten für Konstruktion und Service betreiben. Erste Schätzungen sahen drei H100-Knoten vor. Nach Erfassung des realen Lastprofils – etwa 12.000 Anfragen pro Tag mit moderater Kontextlänge – und dem Einsatz eines FP8-quantisierten 70B-Modells genügte ein einziger B200-Knoten bei rund 75 % Tagesauslastung. Lastspitzen am Monatsende werden über ein Cloud-Burst-Kontingent abgefedert. Ergebnis: deutlich geringere Investition als ursprünglich geplant und ein Break-even im ersten Quartal.

Häufig gestellte Fragen zu NVIDIA Blackwell

Wie viel schneller ist B200 gegenüber H100?

Bei Inferenz auf Llama 2 70B erreicht B200 rund 17.500 Tokens/s gegenüber etwa 3.000 auf H100 – also etwa 5,8x mehr Durchsatz. GB200 NVL72 skaliert für sehr große Modelle bis zu 30x. Die Werte stammen aus optimierten Hersteller- und Branchen-Benchmarks; der reale Durchsatz hängt von Modell, Kontextlänge und Serving-Stack ab.

Wann amortisiert sich On-Premise-Hardware?

Bei hoher GPU-Auslastung (80%+) liegt der Break-even gegenüber Hyperscale-Cloud unter vier Monaten. Entscheidend ist die Auslastung – Leerlauf verschlechtert den ROI deutlich. Über einen Abschreibungszeitraum von drei bis vier Jahren fällt der TCO bei stabiler Last klar zugunsten eigener Hardware aus.

Was bringt FP4 auf Blackwell?

FP4 (NVFP4) verdoppelt die Effizienz gegenüber FP8 bei vergleichbarer Genauigkeit, senkt die Inferenzkosten auf rund 0,02 USD pro Million Tokens und verbessert Tokens-per-Watt. Da Energie ein wachsender TCO-Faktor ist, wirkt FP4 doppelt – über mehr Durchsatz und über geringeren Stromverbrauch.

Lohnt sich Blackwell auch für kleinere Mittelständler?

Bei stabiler, ausreichender Last ja – planbare Kosten, Datensouveränität und der schnelle Break-even sprechen dafür. Bei schwankender oder geringer Last kann ein Hybrid-Modell sinnvoller sein, bei dem die Produktionslast auf eigener Hardware läuft und Spitzen in die Cloud ausgelagert werden. Eine ehrliche Workload-Analyse ist die Grundlage jeder Entscheidung.

Blackwell-Infrastruktur für Ihr Unternehmen rechnen

Wir dimensionieren, beschaffen und betreiben Ihre On-Premise-KI – DSGVO-konform und mit belastbarer ROI-Rechnung. Kostenlose Erstberatung inklusive Break-even-Analyse.