GPU-Wahl für KI-Server 2026: L40S, H100, H200 oder doch Apple Silicon?
Die Hardware-Frage entscheidet über zwei Drittel der Investition und über die Lebensdauer eines KI-Stacks. Dieser Artikel vergleicht die relevanten GPUs des Jahres 2026 entlang VRAM, Durchsatz, Stromverbrauch und Preis — und sagt klar, wann Apple Silicon eine ernsthafte Option ist und wann nicht.
Wer 2026 einen On-Premise-KI-Server beschafft, steht vor einer Marktlage, die unübersichtlicher ist als noch vor zwei Jahren. NVIDIA hat die Hopper-Familie (H100, H200) im professionellen Inferenz-Segment etabliert, parallel rollt Blackwell (B100, B200) aus, die Ada-Lovelace-Generation (L4, L40S, RTX 6000 Ada) bleibt für mittlere Workloads die wirtschaftlichste Wahl. Apple Silicon hat sich mit M4 Max und M4 Ultra zu einer ernstzunehmenden Plattform für lokale Inferenz entwickelt — allerdings nicht für jeden Einsatzfall. Dieser Artikel sortiert die Optionen entlang technischer Parameter und konkreter Nutzerzahl-Szenarien, damit Sie nicht in eine Sackgasse investieren.
1. VRAM-Bedarf je Modellgröße realistisch berechnet
Die häufigste Fehleinschätzung beim GPU-Kauf ist der reine Blick auf die Modellparameter. Ein 70B-Modell braucht in FP16 zwar nominell 140 GB, in der Praxis kommen aber KV-Cache, Aktivierungen und Reserve für Batch-Verarbeitung hinzu. Wer mit Quantisierung arbeitet, reduziert den Bedarf erheblich, zahlt jedoch mit messbarem Qualitätsverlust und veränderter Numerik.
Eine konservative Faustformel: Multiplizieren Sie die Parameteranzahl mit 2 für FP16, mit 1 für INT8 und mit 0,5 für INT4. Addieren Sie 20 Prozent für KV-Cache bei 8k-Kontext, 40 Prozent bei 32k und bis zu 80 Prozent bei 128k Tokens. Für ein 70B-Modell in 4-Bit-AWQ mit 16k Kontext landen Sie damit bei rund 50 GB Gesamtbedarf — eine L40S mit 48 GB ist knapp zu klein, zwei L40S laufen komfortabel.
Bei Multi-User-Betrieb steigt der Bedarf weiter, weil vLLM und TensorRT-LLM den KV-Cache pro aktiver Session vorhalten. Faustregel: Ab acht parallelen Anfragen verdoppelt sich der effektive Speicherverbrauch gegenüber Single-Request-Inferenz.
Praxistipp: Rechnen Sie nicht knapp. Ein KI-Server, der bei drei Power-Usern in den OOM läuft, kostet mehr Vertrauen als die Differenz zur nächstgrößeren GPU.
2. Die GPU-Matrix 2026 im Überblick
Die folgende Tabelle vergleicht die für Mittelstands-Inferenz relevanten Modelle. FP16-TFLOPS sind als grobe Vergleichsgröße angegeben — für reale Workloads zählt die Tensor-Core-Performance plus Speicherbandbreite, nicht die Rohleistung allein.
| Modell | VRAM | FP16 TFLOPS | Preis-Band 2026 | Empfohlener Einsatz |
|---|---|---|---|---|
| NVIDIA L4 | 24 GB | ~120 | 2.500–3.500 € | Edge, Embedding, kleine 7B-Modelle |
| RTX 6000 Ada | 48 GB | ~365 | 6.500–8.000 € | Workstation, 13B–34B-Modelle, Single-User |
| NVIDIA L40S | 48 GB | ~362 | 8.000–10.500 € | Server-Workhorse, 13B–34B, kleine Teams |
| 2× L40S (TP=2) | 96 GB | ~720 | 17.000–22.000 € | 70B mit AWQ, 20–60 Nutzer |
| H100 80GB PCIe | 80 GB | ~756 | 26.000–32.000 € | 70B FP16, hohe Concurrency |
| H200 141GB | 141 GB | ~989 | 34.000–42.000 € | 70B–120B, lange Kontexte (>32k) |
| B200 192GB | 192 GB | ~2250 | 45.000–60.000 € | 200B+, Multi-Tenant-Plattform |
| Mac Studio M4 Ultra | 192–256 GB UMA | ~110 (MLX) | 7.500–12.000 € | 1–5 Nutzer, Entwicklung, Prototypen |
Auffällig ist die Lücke zwischen L40S und H100: Die H100 kostet das Drei- bis Vierfache, liefert aber bei kleinen Batch-Sizes oft nur 30–50 Prozent mehr Token-Durchsatz. Erst bei hoher Concurrency (16+ parallele Anfragen) zieht die Hopper-Architektur durch ihre höhere Speicherbandbreite davon. Wer ehrlich nur 10–30 Mitarbeiter mit gelegentlichen Anfragen versorgt, fährt mit zwei L40S deutlich besser als mit einer H100.
3. Apple Silicon: Wann M4 Max und M4 Ultra Sinn ergeben
Der Mac Studio mit M4 Ultra und 256 GB Unified Memory ist 2026 die einzige bezahlbare Möglichkeit, ein 70B-Modell ohne Quantisierung lokal auf einem einzelnen Gerät laufen zu lassen. Die MLX-Bibliothek von Apple liefert dabei akzeptable 12–18 Tokens pro Sekunde bei Single-User-Inferenz. Für Entwickler, die auf dem eigenen Schreibtisch ein größeres Modell brauchen, oder für sehr kleine Teams ist das eine elegante Lösung.
Die Grenzen werden jedoch schnell sichtbar. Sobald mehr als zwei oder drei Nutzer gleichzeitig Anfragen stellen, bricht der Durchsatz ein, weil MLX kein PagedAttention und keinen geteilten KV-Cache implementiert. Es gibt keinen Continuous Batcher, der vergleichbar mit vLLM Anfragen gleichzeitig verarbeitet. Hinzu kommt: Apple-Geräte lassen sich nicht in 19-Zoll-Racks einbauen, haben kein redundantes Netzteil und kein IPMI für Out-of-Band-Management. Im Rechenzentrumsbetrieb sind sie organisatorisch schwierig.
Unsere Empfehlung: Apple Silicon als Entwicklungs- und Prototypen-Plattform, nicht als produktiver Server. Wer 30 Mitarbeiter versorgen will, braucht NVIDIA-Hardware mit vLLM oder TensorRT-LLM.
4. Tensor-Parallelismus vs Single-GPU: Was lohnt sich?
Zwei L40S sind in der Anschaffung günstiger als eine H100, bieten zusammen 96 GB statt 80 GB VRAM und liefern in vielen Workloads vergleichbaren Durchsatz. Der Haken: Tensor-Parallelismus (TP=2) erfordert NVLink oder zumindest schnelles PCIe Gen5 zwischen den Karten, sonst limitiert die Inter-GPU-Kommunikation. L40S-Karten haben kein NVLink, nur PCIe 4.0 x16 — bei TP=2 sehen Sie etwa 15–25 Prozent Overhead gegenüber linearer Skalierung.
Single-GPU-Lösungen vermeiden diesen Overhead vollständig und sind operativ einfacher: ein OOM, ein Treiberabsturz, ein Reboot. Wer mit einer H100 80GB oder H200 141GB ein 70B-Modell auf einer Karte unterbringt, hat im Alltag weniger Komplexität als ein 2× L40S-Setup. Die Mehrkosten zahlen sich aus, sobald der Server kritisch wird.
Vier-GPU-Setups (4× L40S oder 4× H100) sind im Mittelstand selten sinnvoll. Sie ergeben Sinn, wenn Sie 200B-Modelle wie DeepSeek V3 oder Llama 4 Behemoth in voller Präzision betreiben oder mehrere Modelle parallel hosten wollen. Die Komplexität (NVLink-Switches, Kühlung, Netzteile) steigt überproportional.
Welche GPU passt zu Ihrem Reifegrad?
Bevor Sie 30.000 Euro in Hardware investieren, lohnt sich ein strukturierter Blick auf Datenlage, Use-Cases und Organisation. In sieben Minuten bekommen Sie ein PDF mit konkreter Hardware-Empfehlung passend zu Ihrer Reifestufe.
5. Stromverbrauch, Kühlung und Rack-Realität
Die L40S zieht unter Volllast 350 Watt, die H100 PCIe 350 Watt, die H200 SXM bis zu 700 Watt, die B200 schon 1000 Watt. In einem typischen Tower-Server mit zwei L40S sprechen wir von rund 1,2 Kilowatt Dauerlast inklusive CPU, RAM und Lüftern — das überfordert haushaltsübliche Stromkreise nicht, aber die Abwärme will weg.
Konkret: Eine L40S erzeugt im Volllastbetrieb etwa 1.200 BTU/h Abwärme. Zwei davon plus Restsystem entsprechen rund einer Klimaanlage mit 1 kW Kühlleistung. In einem Serverraum ohne aktive Klimatisierung steigt die Raumtemperatur in Stunden auf kritische 35–40 Grad. Wir empfehlen für jeden On-Premise-KI-Server entweder eine dedizierte Splitklima oder einen Standort in einem klimatisierten Rechenzentrum.
Die H200 und B200 sind wegen ihrer 700–1000 Watt TDP praktisch nur in Rack-Servern mit Front-to-Back-Airflow oder mit Direct-Liquid-Cooling sinnvoll betreibbar. Für viele Mittelständler ist das ein Argument, bei der L40S oder maximal H100 PCIe zu bleiben — die laufen auch in einem soliden Tower-Workstation-Gehäuse.
6. Gebrauchtmarkt: A100, H100 und worauf zu achten ist
Der Sekundärmarkt für Datacenter-GPUs hat sich 2025/2026 deutlich entspannt. Hyperscaler tauschen ihre A100-Bestände gegen H100/B200, dadurch fließen große Mengen A100 80GB in den Channel. Preise für gebrauchte A100 80GB SXM bewegen sich Anfang 2026 zwischen 8.000 und 12.000 Euro, PCIe-Versionen zwischen 9.000 und 13.000 Euro. Eine A100 ersetzt für die meisten Mittelstands-Workloads eine L40S vollwertig — bei höherer Speicherbandbreite (1,9 TB/s vs 864 GB/s) und HBM2e statt GDDR6.
Worauf zu achten ist: Erstens stammt ein Großteil der Ware aus Trainings-Clustern mit 36+ Monaten Volllastbetrieb. Burn-in der HBM-Stacks ist real, ECC-Fehlerraten steigen messbar. Zweitens haben SXM-Module keinen Steckplatz im klassischen Sinne — sie brauchen ein passendes HGX-Baseboard. Wer keine HGX-Plattform hat, sollte bei PCIe-Karten bleiben. Drittens: Garantie. Original-NVIDIA-Garantien sind beim Sekundärkauf meist erloschen, seriöse Distributoren bieten 12–24 Monate Eigengarantie an. Diese Absicherung ist die 500 Euro Aufschlag wert.
Für H100 ist der Sekundärmarkt 2026 noch dünn — Preise liegen 30–40 Prozent unter Neuware (also 18.000–22.000 € für eine H100 80GB PCIe). Hier gilt umso mehr: nur über bekannte Distributoren mit Burn-in-Test und Garantie kaufen.
7. Kaufempfehlung nach Nutzerszenario
Die folgende Heuristik stammt aus rund 40 Beratungsprojekten der letzten 18 Monate und ist deutlich näher an der Praxis als jede Hersteller-Tabelle:
- 1–5 Nutzer, Entwicklung und Prototypen: Mac Studio M4 Ultra mit 192 GB oder Workstation mit RTX 6000 Ada. Investition 7.500–12.000 €.
- 5–20 Nutzer, leichte produktive Last: Tower-Server mit einer L40S oder zwei RTX 6000 Ada. Investition 12.000–18.000 €. Modelle bis 14B in FP16, 70B in 4-Bit.
- 20–60 Nutzer, gemischte Workloads inkl. RAG: Rack-Server 2HE mit 2× L40S oder einer A100 80GB. Investition 22.000–35.000 €. Llama 3.3 70B in 4-Bit produktiv.
- 60–150 Nutzer, Coding-Assistent + RAG + Chat: H100 80GB oder zwei A100 80GB. Investition 35.000–55.000 € plus Strom und Kühlung.
- 150+ Nutzer oder Multi-Tenant: H200 141GB oder B200 192GB im klimatisierten Rack. Investition ab 60.000 € aufwärts, hier beginnt das Thema Direct-Liquid-Cooling.
Eine Warnung zum Schluss: Verbiegen Sie die Heuristik nicht nach unten. Wer 50 Mitarbeiter mit einer einzelnen L40S versorgen will, wird in den ersten Wochen Begeisterung erleben — und dann Beschwerden über Wartezeiten. Schlechte Performance im Pilot kostet das Projekt mehr als die richtige Hardware kostet.
FAQ zur GPU-Auswahl
Welche GPU brauche ich für ein 70B-Modell wie Llama 3.3?
Mit AWQ- oder GPTQ-Quantisierung auf 4 Bit passt Llama 3.3 70B in etwa 40 GB VRAM plus 10–20 GB KV-Cache je nach Kontextlänge. Eine einzelne L40S (48 GB) wird damit eng, zwei L40S oder eine H100 80GB sind die saubere Wahl. In FP16 brauchen Sie mindestens 2× H100 oder eine H200 141GB.
Lohnt sich die H200 gegenüber der H100?
Für 70B–120B-Modelle mit langen Kontexten ja: 141 GB HBM3e und 4,8 TB/s Bandbreite halbieren die Token-Latenz gegenüber der H100. Für 7B–14B-Modelle ist die H100 oder L40S wirtschaftlicher. Faustregel: H200, sobald Sie regelmäßig Kontexte über 32k Tokens fahren.
Sind Apple Silicon Macs eine ernsthafte Alternative?
Für Einzelarbeitsplätze und kleine Teams bis 5 Nutzer ja. Ein Mac Studio M4 Ultra mit 256 GB Unified Memory läuft Llama 70B mit MLX bei 12–18 Tokens/s. Für Multi-User-Inferenz mit Concurrency, Batch-Verarbeitung und KV-Cache-Sharing fehlt jedoch das Server-Ökosystem — vLLM, TensorRT-LLM und Triton gibt es dort nicht.
Lohnt sich gebrauchte Hardware wie A100 oder H100?
A100 80GB ist Ende 2025 für 8.000–12.000 € am Sekundärmarkt verfügbar und reicht für die meisten Mittelstands-Workloads. Wichtig: SXM-Module brauchen passende Boards (HGX), PCIe-Karten sind flexibler. Bei H100-Gebrauchtware lohnt eine Garantieprüfung über den Distributor — Burn-in nach 36 Monaten Trainingsbetrieb ist real.
Hardware-Beschaffung mit Augenmaß
Wir beraten Sie herstellerneutral, organisieren Leih-GPUs für Benchmarks und konfigurieren Server passend zu Ihrem realen Workload — nicht zum Datenblatt.