Open-Weight LLM 20. Juni 2026 11 Min. Lesezeit

DeepSeek V4: Das erste frontier-starke Open-Weight-Modell für Ihren Serverraum

Am 24. April 2026 hat DeepSeek mit V4 ein Modell unter MIT-Lizenz veröffentlicht, das auf SWE-bench Verified an die geschlossene Spitze heranreicht – und das man legal herunterladen, fine-tunen und vollständig im eigenen Rechenzentrum betreiben darf. Für datensensible Mittelständler ist das der bisher stärkste Beleg, dass DSGVO-Konformität und Spitzenqualität kein Widerspruch mehr sind.

Cloud-API vs. On-Premise – Wohin fließen Ihre Prompts?

Cloud-API (US-Anbieter)

Mitarbeiter + Prompt

⚠ Drittland-Transfer

Unternehmensdaten verlassen die EU

US-Cloud-API

CLOUD Act · keine Datenhoheit

On-Premise (DeepSeek V4)

Mitarbeiter + Prompt

Internes Gateway

V4-Inferenz (GPU) MIT

Eigene Datenquelle

Daten bleiben im Haus · volle Datenhoheit

Jahrelang galt eine bittere Regel: Wer KI auf Frontier-Niveau wollte, musste seine Daten an eine US-Cloud-API senden. Wer dagegen alles im eigenen Haus behalten wollte, musste mit deutlich schwächeren Modellen vorliebnehmen. Mit DeepSeek V4 ist dieser Zielkonflikt im Frühjahr 2026 zusammengebrochen.

V4 ist ein Open-Weight-Modell, das auf zentralen Benchmarks an geschlossene Spitzenmodelle heranreicht – und dessen Gewichte Sie unter MIT-Lizenz legal herunterladen, anpassen und vollständig on-premise betreiben dürfen. Dieser Artikel zeigt im technischen Detail, was V4 ausmacht, warum die Lizenz so entscheidend ist, wie der Self-Hosting-Stack aussieht und ab wann sich der Eigenbetrieb gegen Cloud-APIs rechnet.

Was DeepSeek V4 technisch ausmacht

DeepSeek V4 ist ein Mixture-of-Experts-Modell (MoE): Statt bei jeder Anfrage alle Parameter zu aktivieren, leitet ein Routing-Mechanismus jedes Token nur durch eine kleine Auswahl spezialisierter „Experten". Die Folge: V4-Pro hat zwar 1,6 Billionen Parameter insgesamt, aktiviert pro Token aber nur rund 49 Milliarden. Das ist der Trick, mit dem ein Large Language Model dieser Größenordnung überhaupt mit vertretbarer Inferenz-Last betrieben werden kann.

Zwei weitere Eckdaten sind für den Geschäftseinsatz relevant: Das Context Window umfasst eine Million Token – genug, um ganze Vertragsakten, Code-Repositories oder Handbücher in einem Rutsch zu verarbeiten. Und das maximale Output-Limit von 384K Token erlaubt sehr lange, zusammenhängende Antworten und Dokumentgenerierung.

Für Unternehmen ohne GPU-Cluster ist vor allem die zweite Variante interessant: V4-Flash. Sie reduziert die Gesamtgröße auf 284 Milliarden Parameter bei nur 13 Milliarden aktiven Parametern pro Token – und wird damit auf wesentlich kleinerer Hardware lauffähig, bei nur moderatem Qualitätsverlust gegenüber V4-Pro.

Merkmal	V4-Pro	V4-Flash
Parameter gesamt	1,6 Billionen (MoE)	284 Milliarden (MoE)
Aktive Parameter / Token	49 Milliarden	13 Milliarden
Context Window	1.000.000 Token	1.000.000 Token
Max. Output	384.000 Token	384.000 Token
Ziel-Hardware	Multi-GPU-Cluster (High-End)	Ab 80-GB-GPU-Klasse

Warum die MIT-Lizenz alles ändert

Der technisch beeindruckendste Teil von V4 ist nicht die Architektur, sondern die Lizenz. DeepSeek hat die Gewichte unter die MIT-Lizenz gestellt – eine der freizügigsten Lizenzen überhaupt. Konkret heißt das: Die kommerzielle Nutzung ist erlaubt, die Weiterverteilung ist erlaubt, und das Fine-Tuning auf eigene Daten ist erlaubt. Es fallen keine Lizenzgebühren an, und die Gewichte bleiben öffentlich downloadbar.

Für ein Unternehmen bedeutet das maximale Rechtssicherheit: Sie sind nicht auf das Wohlwollen eines Anbieters angewiesen, der seine Nutzungsbedingungen oder Preise jederzeit ändern kann. Das Modell, das Sie heute herunterladen, gehört faktisch in Ihren Betrieb – unwiderruflich.

„Open Weight" ist nicht gleich „Open Source". Viele frei verfügbare Modelle sind streng genommen nur Open Weight: Sie können die fertigen Gewichte nutzen, aber die Lizenz schränkt Einsatz oder Weitergabe ein (z. B. Umsatzgrenzen oder Wettbewerbsklauseln). Echte permissive Lizenzen wie MIT oder Apache 2.0 kennen solche Einschränkungen nicht. DeepSeek V4 fällt in die zweite, rechtssichere Kategorie – kommerzielle Nutzung und Weitergabe sind ohne Sondergenehmigung gedeckt. Genau das ist für eine belastbare Unternehmensentscheidung der Unterschied zwischen „nett zum Ausprobieren" und „produktiv einsetzbar".

Wo V4 im Juni 2026 wirklich steht

Zahlen ohne Kontext sind wertlos – also ordnen wir ein. Der vielzitierte Wert: V4-Pro erreicht 80,6 % auf SWE-bench Verified, einem der härtesten Benchmarks für reale Software-Engineering-Aufgaben. Damit ist V4-Pro das stärkste Open-Weights-Modell auf diesem Benchmark und liegt gleichauf mit Gemini 3.1 Pro.

Entscheidend ist der geschrumpfte Abstand zur geschlossenen Spitze: Geschlossene Frontier-Modelle wie Claude Opus 4.8 liegen nur noch wenige Punkte vor V4. Vor einem Jahr trennten offene und geschlossene Modelle noch zweistellige Prozentpunkte – dieser Graben ist auf eine schmale Furche zusammengeschmolzen. Für die allermeisten Geschäftsaufgaben ist diese Differenz irrelevant.

Open-Weight-Modell	SWE-bench Verified	Lizenz
DeepSeek V4-Pro	80,6 %	MIT
MiniMax M3	~78 %	Apache 2.0
Qwen3.7 Max	~77 %	Apache 2.0

Die Botschaft für Entscheider: Das Argument „Open-Weight ist Spielzeug, für den Ernstfall brauchen wir die Cloud" hält 2026 einer Prüfung nicht mehr stand. Wer einen On-Premise-Aufbau evaluiert, vergleicht heute keine zweite Liga mehr, sondern Modelle auf Augenhöhe mit den teuersten kommerziellen APIs.

V4 selbst hosten: Hardware und Stack

Der realistische Self-Hosting-Pfad führt über vLLM, den De-facto-Standard für produktive LLM-Inferenz. vLLM stellt eine OpenAI-kompatible API bereit – das heißt, bestehende Anwendungen, die heute gegen eine Cloud-API laufen, lassen sich mit minimalem Aufwand auf den lokalen Endpunkt umstellen. Sie tauschen im Kern nur die Basis-URL aus.

Quantisierung senkt die Hardware-Hürde

Über Quantisierung lässt sich der Speicherbedarf drastisch reduzieren, indem die Gewichte mit geringerer Präzision (etwa FP8 oder INT4 statt FP16) gespeichert werden. Für viele Geschäftsaufgaben ist der Qualitätsverlust dabei kaum messbar, der Speichergewinn aber erheblich. Genau das macht den Eigenbetrieb auch für Häuser ohne Rechenzentrum im großen Stil zugänglich.

Tensor-Parallelism für große Modelle

V4-Pro verteilt man über Tensor-Parallelism auf mehrere GPUs: Das Modell wird über die Karten eines Clusters „aufgespannt". V4-Flash dagegen ist mit der 80-GB-GPU-Klasse als Einstieg deutlich anspruchsloser und für die meisten Mittelständler der pragmatische Startpunkt. Die exakte Dimensionierung – Kartenanzahl, VRAM, Durchsatz pro Nutzer – hängt von Ihrem Lastprofil ab; Details dazu klären wir im Rahmen einer KI-System-Konzeption.

Praxisbeispiel: Maschinenbauer hostet V4-Flash für Coding und Dokumentation
Ein mittelständischer Maschinenbauer mit eigener Softwareabteilung wollte einen Coding-Assistenten und ein Dokumenten-Analysetool, ohne Quellcode und Konstruktionsunterlagen an eine US-Cloud zu geben. Die Lösung: V4-Flash, quantisiert auf FP8, betrieben über vLLM auf einem einzelnen Server der 80-GB-GPU-Klasse. Die Anwendungen sprechen die OpenAI-kompatible API an – der bestehende interne Assistent musste nur auf den lokalen Endpunkt umgestellt werden. Ergebnis: voller Frontier-naher Funktionsumfang, null Pro-Token-Kosten, und keine einzige Zeile Code verlässt das Werksgelände.

TCO: Self-Hosting gegen GPT-5.5- und Opus-API

Die Wirtschaftlichkeit hat zwei Hebel. Der erste: V4 ist selbst als API drastisch günstiger als westliche Frontier-Modelle. V4-Pro kostet rund 0,435 USD pro Million Input-Token und 0,87 USD pro Million Output-Token – im Output etwa 34-mal günstiger als GPT-5.5. V4-Flash liegt mit 0,14 / 0,28 USD pro Million Token noch einmal deutlich darunter.

Der zweite, für den Mittelstand entscheidende Hebel: Beim Self-Hosting entfallen die Pro-Token-Kosten vollständig. Sie zahlen einmalig die Hardware (oder eine feste Cloud-GPU-Miete) plus Betrieb – aber kein Modell-Anbieter rechnet Ihnen mehr jedes verarbeitete Token einzeln ab. Genau hier kippt die Kostenlogik bei steigendem Volumen.

Betriebsmodell	Output-Kosten / Mio. Token	Datenhoheit
GPT-5.5 API (Cloud)	~30 USD (Referenz)	Drittland
V4-Pro API	0,87 USD (~34× günstiger)	Anbieter-abhängig
V4-Flash API	0,28 USD	Anbieter-abhängig
V4-Flash Self-Hosted	0 USD pro Token (nur Fixkosten)	100 % im Haus

Eine grobe Beispielrechnung: Ein Unternehmen mit hohem Token-Volumen – etwa durch firmenweite Assistenz, Dokumentenanalyse und Coding-Support – verarbeitet schnell Milliarden Token im Jahr. Gegen eine westliche Frontier-API summiert sich das auf hohe fünf- bis sechsstellige Beträge jährlich. Eine Self-Hosting-Investition in V4-Flash-taugliche Hardware amortisiert sich gegen dieses Volumen oft innerhalb weniger Monate – und der Break-Even gegenüber einer Cloud-API verschiebt sich mit jedem zusätzlichen Nutzer weiter zu Ihren Gunsten. Den konkreten Kipppunkt für Ihr Profil ermitteln Sie mit unserem TCO-Rechner Cloud vs. On-Premise.

DSGVO und Datensouveränität als Kernargument

Für deutsche Mittelständler ist die Kostenfrage oft gar nicht das stärkste Argument – es ist die Datensouveränität. On-premise betriebenes V4 löst keinen Drittland-Transfer aus: Prompts, Dokumente und Antworten verlassen Ihre Infrastruktur nie. Damit entfällt der gesamte rechtliche Komplex rund um Standardvertragsklauseln, Transfer Impact Assessments und das latente CLOUD-Act-Risiko, dem Daten bei US-Anbietern grundsätzlich ausgesetzt sind.

Bleibt der Aspekt der Herkunft: DeepSeek ist ein chinesisches Unternehmen, und die offizielle DeepSeek-Cloud-API würde Daten tatsächlich an chinesische Server senden. Der entscheidende Punkt beim Self-Hosting: Sie laden nur die Gewichte herunter – eine statische Datei. Die Inferenz läuft anschließend vollständig in Ihrer eigenen Umgebung, ohne jede Verbindung zu DeepSeek-Servern. Das Modell wird durch den lokalen Betrieb vollständig von seiner Herkunft entkoppelt. Was bleibt, ist reine Mathematik auf Ihren GPUs.

Der Kern in einem Satz: Self-Hosting verwandelt ein chinesisches Modell in eine vollständig souveräne, DSGVO-konforme Inhouse-Lösung – weil nur die Gewichte importiert werden, nicht ein laufender Dienst. Datenschutzrechtlich verhält sich lokal betriebenes V4 wie jede andere Software, die ausschließlich auf Ihren Servern rechnet.

Empfehlung für den Mittelstand

Die Variantenwahl folgt einer einfachen Logik. V4-Pro lohnt sich, wenn Sie maximale Qualität für anspruchsvolle Aufgaben brauchen – komplexe Code-Generierung, tiefe Analysen, agentische Workflows – und die Multi-GPU-Hardware vorhanden oder finanzierbar ist. V4-Flash ist für die große Mehrheit der Mittelstands-Use-Cases der pragmatische Standard: Dokumentenanalyse, Wissensmanagement, Coding-Assistenz und interne Chatbots laufen darauf hervorragend, bei einem Bruchteil des Hardwarebedarfs.

Eine begleitete Einführung lohnt sich besonders dort, wo Fine-Tuning auf Fachsprache, eine Integration in bestehende Fachsysteme oder ein belastbares Governance-Konzept gefragt ist. Hier setzt unsere KI-Beratung an.

Praxis-Checkliste für den Einstieg

Modellauswahl: Use-Cases bewerten – reicht V4-Flash, oder rechtfertigt das Anspruchsniveau einen V4-Pro-Cluster?
Hardware: VRAM-Bedarf nach Quantisierungsstufe und Nutzerzahl dimensionieren; 80-GB-Klasse als realistischer Flash-Einstieg.
Fine-Tuning-Bedarf: Prüfen, ob das Basismodell genügt oder ob domänenspezifisches Fine-Tuning messbaren Mehrwert bringt.
Governance: Zugriffsrechte, Audit-Logging und Nutzungsrichtlinien definieren – DSGVO-Konformität ist beim Self-Hosting der Default, will aber dokumentiert sein.

Wer 2026 einen KI-Aufbau plant, hat mit DeepSeek V4 erstmals ein frontier-nahes Modell zur Hand, das volle Datenhoheit und Spitzenqualität gleichzeitig liefert. Die Frage ist nicht mehr ob, sondern in welcher Variante und mit welcher Hardware.

Häufig gestellte Fragen zu DeepSeek V4

Ist DeepSeek V4 wirklich kostenlos nutzbar?

Die Gewichte von DeepSeek V4 stehen unter MIT-Lizenz und sind öffentlich herunterladbar. Damit ist die kommerzielle Nutzung, Weiterverteilung und das Fine-Tuning rechtlich erlaubt - es fallen keine Lizenzgebühren an. Kosten entstehen nur für die Hardware oder Cloud-GPU, auf der Sie das Modell betreiben. Beim Self-Hosting gibt es keine Pro-Token-Abrechnung.

Schicke ich beim Betrieb von DeepSeek V4 Daten nach China?

Nein, sofern Sie das Modell selbst on-premise betreiben. Beim Self-Hosting laden Sie nur die offenen Gewichte herunter und führen die Inferenz vollständig in Ihrer eigenen Infrastruktur aus. Es besteht keine Verbindung zu DeepSeek-Servern. Nur die offizielle DeepSeek-Cloud-API würde Daten an chinesische Server senden - genau diese vermeiden Sie durch lokalen Betrieb.

Welche Hardware brauche ich für DeepSeek V4?

Das hängt von der Variante ab. V4-Pro mit 1,6 Billionen Parametern benötigt mehrere High-End-GPUs in einem Cluster. Die schlankere V4-Flash-Variante (284B total, nur 13B aktiv) läuft bereits auf Hardware der 80-GB-Klasse und ist für die meisten Mittelstands-Use-Cases der pragmatischere Einstieg. Wir helfen bei der konkreten Dimensionierung.

Reicht die Qualität von V4 für den Geschäftseinsatz?

Für die große Mehrheit interner Aufgaben ja. Mit 80,6% auf SWE-bench Verified liegt V4-Pro nur wenige Punkte hinter geschlossenen Spitzenmodellen wie Claude Opus 4.8. Für Aufgaben wie Dokumentenanalyse, Wissensmanagement, Coding-Assistenz und Chatbots ist diese Qualität mehr als ausreichend - bei voller Datenhoheit.

Passende Leistungen

On-Premise-KI Lösungen KI-System aufbauen KI-Beratung anfragen TCO-Rechner Cloud vs. On-Premise

DeepSeek V4 in Ihrem Rechenzentrum einführen

Wir evaluieren mit Ihnen Modellvariante, Hardware und Governance – und bauen Ihr DSGVO-konformes On-Premise-Setup auf. Kostenlose Erstberatung, klarer Fahrplan.

On-Premise-KI anfragen KI-Schnellcheck