Cluster Hardware 13. April 2026 11 Min. Lesezeit

GPU-Wahl für KI-Server 2026: L40S, H100, H200 oder doch Apple Silicon?

Die Hardware-Frage entscheidet über zwei Drittel der Investition und über die Lebensdauer eines KI-Stacks. Dieser Artikel vergleicht die relevanten GPUs des Jahres 2026 entlang VRAM, Durchsatz, Stromverbrauch und Preis — und sagt klar, wann Apple Silicon eine ernsthafte Option ist und wann nicht.

Wer 2026 einen On-Premise-KI-Server beschafft, steht vor einer Marktlage, die unübersichtlicher ist als noch vor zwei Jahren. NVIDIA hat die Hopper-Familie (H100, H200) im professionellen Inferenz-Segment etabliert, parallel rollt Blackwell (B100, B200) aus, die Ada-Lovelace-Generation (L4, L40S, RTX 6000 Ada) bleibt für mittlere Workloads die wirtschaftlichste Wahl. Apple Silicon hat sich mit M4 Max und M4 Ultra zu einer ernstzunehmenden Plattform für lokale Inferenz entwickelt — allerdings nicht für jeden Einsatzfall. Dieser Artikel sortiert die Optionen entlang technischer Parameter und konkreter Nutzerzahl-Szenarien, damit Sie nicht in eine Sackgasse investieren.

1. VRAM-Bedarf je Modellgröße realistisch berechnet

Die häufigste Fehleinschätzung beim GPU-Kauf ist der reine Blick auf die Modellparameter. Ein 70B-Modell braucht in FP16 zwar nominell 140 GB, in der Praxis kommen aber KV-Cache, Aktivierungen und Reserve für Batch-Verarbeitung hinzu. Wer mit Quantisierung arbeitet, reduziert den Bedarf erheblich, zahlt jedoch mit messbarem Qualitätsverlust und veränderter Numerik.

Eine konservative Faustformel: Multiplizieren Sie die Parameteranzahl mit 2 für FP16, mit 1 für INT8 und mit 0,5 für INT4. Addieren Sie 20 Prozent für KV-Cache bei 8k-Kontext, 40 Prozent bei 32k und bis zu 80 Prozent bei 128k Tokens. Für ein 70B-Modell in 4-Bit-AWQ mit 16k Kontext landen Sie damit bei rund 50 GB Gesamtbedarf — eine L40S mit 48 GB ist knapp zu klein, zwei L40S laufen komfortabel.

Bei Multi-User-Betrieb steigt der Bedarf weiter, weil vLLM und TensorRT-LLM den KV-Cache pro aktiver Session vorhalten. Faustregel: Ab acht parallelen Anfragen verdoppelt sich der effektive Speicherverbrauch gegenüber Single-Request-Inferenz.

Praxistipp: Rechnen Sie nicht knapp. Ein KI-Server, der bei drei Power-Usern in den OOM läuft, kostet mehr Vertrauen als die Differenz zur nächstgrößeren GPU.

2. Die GPU-Matrix 2026 im Überblick

Die folgende Tabelle vergleicht die für Mittelstands-Inferenz relevanten Modelle. FP16-TFLOPS sind als grobe Vergleichsgröße angegeben — für reale Workloads zählt die Tensor-Core-Performance plus Speicherbandbreite, nicht die Rohleistung allein.

Modell	VRAM	FP16 TFLOPS	Preis-Band 2026	Empfohlener Einsatz
NVIDIA L4	24 GB	~120	2.500–3.500 €	Edge, Embedding, kleine 7B-Modelle
RTX 6000 Ada	48 GB	~365	6.500–8.000 €	Workstation, 13B–34B-Modelle, Single-User
NVIDIA L40S	48 GB	~362	8.000–10.500 €	Server-Workhorse, 13B–34B, kleine Teams
2× L40S (TP=2)	96 GB	~720	17.000–22.000 €	70B mit AWQ, 20–60 Nutzer
H100 80GB PCIe	80 GB	~756	26.000–32.000 €	70B FP16, hohe Concurrency
H200 141GB	141 GB	~989	34.000–42.000 €	70B–120B, lange Kontexte (>32k)
B200 192GB	192 GB	~2250	45.000–60.000 €	200B+, Multi-Tenant-Plattform
Mac Studio M4 Ultra	192–256 GB UMA	~110 (MLX)	7.500–12.000 €	1–5 Nutzer, Entwicklung, Prototypen

Auffällig ist die Lücke zwischen L40S und H100: Die H100 kostet das Drei- bis Vierfache, liefert aber bei kleinen Batch-Sizes oft nur 30–50 Prozent mehr Token-Durchsatz. Erst bei hoher Concurrency (16+ parallele Anfragen) zieht die Hopper-Architektur durch ihre höhere Speicherbandbreite davon. Wer ehrlich nur 10–30 Mitarbeiter mit gelegentlichen Anfragen versorgt, fährt mit zwei L40S deutlich besser als mit einer H100.

Llama 3.3 70B auf vLLM: Setup in 40 Minuten Quantisierung erklärt: GGUF, GPTQ, AWQ im Vergleich

3. Apple Silicon: Wann M4 Max und M4 Ultra Sinn ergeben

Der Mac Studio mit M4 Ultra und 256 GB Unified Memory ist 2026 die einzige bezahlbare Möglichkeit, ein 70B-Modell ohne Quantisierung lokal auf einem einzelnen Gerät laufen zu lassen. Die MLX-Bibliothek von Apple liefert dabei akzeptable 12–18 Tokens pro Sekunde bei Single-User-Inferenz. Für Entwickler, die auf dem eigenen Schreibtisch ein größeres Modell brauchen, oder für sehr kleine Teams ist das eine elegante Lösung.

Die Grenzen werden jedoch schnell sichtbar. Sobald mehr als zwei oder drei Nutzer gleichzeitig Anfragen stellen, bricht der Durchsatz ein, weil MLX kein PagedAttention und keinen geteilten KV-Cache implementiert. Es gibt keinen Continuous Batcher, der vergleichbar mit vLLM Anfragen gleichzeitig verarbeitet. Hinzu kommt: Apple-Geräte lassen sich nicht in 19-Zoll-Racks einbauen, haben kein redundantes Netzteil und kein IPMI für Out-of-Band-Management. Im Rechenzentrumsbetrieb sind sie organisatorisch schwierig.

Unsere Empfehlung: Apple Silicon als Entwicklungs- und Prototypen-Plattform, nicht als produktiver Server. Wer 30 Mitarbeiter versorgen will, braucht NVIDIA-Hardware mit vLLM oder TensorRT-LLM.

4. Tensor-Parallelismus vs Single-GPU: Was lohnt sich?

Zwei L40S sind in der Anschaffung günstiger als eine H100, bieten zusammen 96 GB statt 80 GB VRAM und liefern in vielen Workloads vergleichbaren Durchsatz. Der Haken: Tensor-Parallelismus (TP=2) erfordert NVLink oder zumindest schnelles PCIe Gen5 zwischen den Karten, sonst limitiert die Inter-GPU-Kommunikation. L40S-Karten haben kein NVLink, nur PCIe 4.0 x16 — bei TP=2 sehen Sie etwa 15–25 Prozent Overhead gegenüber linearer Skalierung.

Single-GPU-Lösungen vermeiden diesen Overhead vollständig und sind operativ einfacher: ein OOM, ein Treiberabsturz, ein Reboot. Wer mit einer H100 80GB oder H200 141GB ein 70B-Modell auf einer Karte unterbringt, hat im Alltag weniger Komplexität als ein 2× L40S-Setup. Die Mehrkosten zahlen sich aus, sobald der Server kritisch wird.

Vier-GPU-Setups (4× L40S oder 4× H100) sind im Mittelstand selten sinnvoll. Sie ergeben Sinn, wenn Sie 200B-Modelle wie DeepSeek V3 oder Llama 4 Behemoth in voller Präzision betreiben oder mehrere Modelle parallel hosten wollen. Die Komplexität (NVLink-Switches, Kühlung, Netzteile) steigt überproportional.

Reifegrad-Selbsttest

Welche GPU passt zu Ihrem Reifegrad?

Bevor Sie 30.000 Euro in Hardware investieren, lohnt sich ein strukturierter Blick auf Datenlage, Use-Cases und Organisation. In sieben Minuten bekommen Sie ein PDF mit konkreter Hardware-Empfehlung passend zu Ihrer Reifestufe.

Selbsttest starten

5. Stromverbrauch, Kühlung und Rack-Realität

Die L40S zieht unter Volllast 350 Watt, die H100 PCIe 350 Watt, die H200 SXM bis zu 700 Watt, die B200 schon 1000 Watt. In einem typischen Tower-Server mit zwei L40S sprechen wir von rund 1,2 Kilowatt Dauerlast inklusive CPU, RAM und Lüftern — das überfordert haushaltsübliche Stromkreise nicht, aber die Abwärme will weg.

Konkret: Eine L40S erzeugt im Volllastbetrieb etwa 1.200 BTU/h Abwärme. Zwei davon plus Restsystem entsprechen rund einer Klimaanlage mit 1 kW Kühlleistung. In einem Serverraum ohne aktive Klimatisierung steigt die Raumtemperatur in Stunden auf kritische 35–40 Grad. Wir empfehlen für jeden On-Premise-KI-Server entweder eine dedizierte Splitklima oder einen Standort in einem klimatisierten Rechenzentrum.

Die H200 und B200 sind wegen ihrer 700–1000 Watt TDP praktisch nur in Rack-Servern mit Front-to-Back-Airflow oder mit Direct-Liquid-Cooling sinnvoll betreibbar. Für viele Mittelständler ist das ein Argument, bei der L40S oder maximal H100 PCIe zu bleiben — die laufen auch in einem soliden Tower-Workstation-Gehäuse.

6. Gebrauchtmarkt: A100, H100 und worauf zu achten ist

Der Sekundärmarkt für Datacenter-GPUs hat sich 2025/2026 deutlich entspannt. Hyperscaler tauschen ihre A100-Bestände gegen H100/B200, dadurch fließen große Mengen A100 80GB in den Channel. Preise für gebrauchte A100 80GB SXM bewegen sich Anfang 2026 zwischen 8.000 und 12.000 Euro, PCIe-Versionen zwischen 9.000 und 13.000 Euro. Eine A100 ersetzt für die meisten Mittelstands-Workloads eine L40S vollwertig — bei höherer Speicherbandbreite (1,9 TB/s vs 864 GB/s) und HBM2e statt GDDR6.

Worauf zu achten ist: Erstens stammt ein Großteil der Ware aus Trainings-Clustern mit 36+ Monaten Volllastbetrieb. Burn-in der HBM-Stacks ist real, ECC-Fehlerraten steigen messbar. Zweitens haben SXM-Module keinen Steckplatz im klassischen Sinne — sie brauchen ein passendes HGX-Baseboard. Wer keine HGX-Plattform hat, sollte bei PCIe-Karten bleiben. Drittens: Garantie. Original-NVIDIA-Garantien sind beim Sekundärkauf meist erloschen, seriöse Distributoren bieten 12–24 Monate Eigengarantie an. Diese Absicherung ist die 500 Euro Aufschlag wert.

Für H100 ist der Sekundärmarkt 2026 noch dünn — Preise liegen 30–40 Prozent unter Neuware (also 18.000–22.000 € für eine H100 80GB PCIe). Hier gilt umso mehr: nur über bekannte Distributoren mit Burn-in-Test und Garantie kaufen.

7. Kaufempfehlung nach Nutzerszenario

Die folgende Heuristik stammt aus rund 40 Beratungsprojekten der letzten 18 Monate und ist deutlich näher an der Praxis als jede Hersteller-Tabelle:

1–5 Nutzer, Entwicklung und Prototypen: Mac Studio M4 Ultra mit 192 GB oder Workstation mit RTX 6000 Ada. Investition 7.500–12.000 €.
5–20 Nutzer, leichte produktive Last: Tower-Server mit einer L40S oder zwei RTX 6000 Ada. Investition 12.000–18.000 €. Modelle bis 14B in FP16, 70B in 4-Bit.
20–60 Nutzer, gemischte Workloads inkl. RAG: Rack-Server 2HE mit 2× L40S oder einer A100 80GB. Investition 22.000–35.000 €. Llama 3.3 70B in 4-Bit produktiv.
60–150 Nutzer, Coding-Assistent + RAG + Chat: H100 80GB oder zwei A100 80GB. Investition 35.000–55.000 € plus Strom und Kühlung.
150+ Nutzer oder Multi-Tenant: H200 141GB oder B200 192GB im klimatisierten Rack. Investition ab 60.000 € aufwärts, hier beginnt das Thema Direct-Liquid-Cooling.

Eine Warnung zum Schluss: Verbiegen Sie die Heuristik nicht nach unten. Wer 50 Mitarbeiter mit einer einzelnen L40S versorgen will, wird in den ersten Wochen Begeisterung erleben — und dann Beschwerden über Wartezeiten. Schlechte Performance im Pilot kostet das Projekt mehr als die richtige Hardware kostet.

RAG mit Qdrant und Llama: Tutorial OpenAI-API selbst hosten — der saubere Weg Coding-Assistent On-Prem mit Continue.dev Vektor-DB-Vergleich: Qdrant, pgvector, Weaviate

FAQ zur GPU-Auswahl

Welche GPU brauche ich für ein 70B-Modell wie Llama 3.3?

Mit AWQ- oder GPTQ-Quantisierung auf 4 Bit passt Llama 3.3 70B in etwa 40 GB VRAM plus 10–20 GB KV-Cache je nach Kontextlänge. Eine einzelne L40S (48 GB) wird damit eng, zwei L40S oder eine H100 80GB sind die saubere Wahl. In FP16 brauchen Sie mindestens 2× H100 oder eine H200 141GB.

Lohnt sich die H200 gegenüber der H100?

Für 70B–120B-Modelle mit langen Kontexten ja: 141 GB HBM3e und 4,8 TB/s Bandbreite halbieren die Token-Latenz gegenüber der H100. Für 7B–14B-Modelle ist die H100 oder L40S wirtschaftlicher. Faustregel: H200, sobald Sie regelmäßig Kontexte über 32k Tokens fahren.

Sind Apple Silicon Macs eine ernsthafte Alternative?

Für Einzelarbeitsplätze und kleine Teams bis 5 Nutzer ja. Ein Mac Studio M4 Ultra mit 256 GB Unified Memory läuft Llama 70B mit MLX bei 12–18 Tokens/s. Für Multi-User-Inferenz mit Concurrency, Batch-Verarbeitung und KV-Cache-Sharing fehlt jedoch das Server-Ökosystem — vLLM, TensorRT-LLM und Triton gibt es dort nicht.

Lohnt sich gebrauchte Hardware wie A100 oder H100?

A100 80GB ist Ende 2025 für 8.000–12.000 € am Sekundärmarkt verfügbar und reicht für die meisten Mittelstands-Workloads. Wichtig: SXM-Module brauchen passende Boards (HGX), PCIe-Karten sind flexibler. Bei H100-Gebrauchtware lohnt eine Garantieprüfung über den Distributor — Burn-in nach 36 Monaten Trainingsbetrieb ist real.

Hardware-Beschaffung mit Augenmaß

Wir beraten Sie herstellerneutral, organisieren Leih-GPUs für Benchmarks und konfigurieren Server passend zu Ihrem realen Workload — nicht zum Datenblatt.

Erstgespräch vereinbaren Zum Pillar-Leitfaden