Tensor-Parallelismus

Infrastruktur

Verteilungsstrategie für LLMs: Einzelne Schichten werden auf mehrere GPUs aufgeteilt, um sehr große Modelle überhaupt erst deployen zu können.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Warum Parallelismus nötig ist

Große Sprachmodelle wie LLaMA-3 70B oder GPT-4-Klassen-Modelle überschreiten den Speicher einzelner GPUs (typisch 24-80 GB VRAM) erheblich. Um sie dennoch effizient zu betreiben, werden Modellgewichte auf mehrere GPUs verteilt.

Tensor-Parallelismus teilt dabei einzelne Gewichtsmatrizen (Tensoren) zeilenweise oder spaltenweise auf mehrere Geräte auf. Jede GPU rechnet ihren Anteil der Matrix-Multiplikation, dann werden die Teilergebnisse per All-Reduce-Operation zusammengeführt.

Abgrenzung zu anderen Parallelisierungsstrategien

Tensor-Parallelismus ist eine von mehreren Strategien: Pipeline-Parallelismus verteilt ganze Schichten auf verschiedene GPUs (geringe Kommunikation, aber Pipeline-Bubbles). Daten-Parallelismus repliziert das Modell und verteilt die Batch-Daten – nur sinnvoll, wenn das Modell auf eine GPU passt. In der Praxis werden die Strategien kombiniert (3D-Parallelismus).

  • Tensor-Parallelismus: hohe Kommunikationslast, setzt schnelle GPU-Verbindungen (NVLink) voraus
  • Typische Konfigurationen: TP=2 für 2 GPUs, TP=8 für 8-GPU-Knoten
  • Implementiert in Megatron-LM, vLLM (--tensor-parallel-size), DeepSpeed
  • Intra-Node-TP bevorzugt wegen hoher NVLink-Bandbreite gegenüber Inter-Node-Ethernet

Merksatz

Tensor-Parallelismus teilt nicht das Modell in Schichten auf, sondern einzelne Schichten selbst – jede GPU rechnet einen Teil jeder Matrix-Multiplikation und tauscht das Ergebnis aus.

Relevanz für den Mittelstand

Wer Modelle ab etwa 30 Milliarden Parametern On-Premise deployen möchte, kommt ohne Parallelisierung nicht aus. Multi-GPU-Server mit 2-8 High-End-GPUs sind für viele KMU wirtschaftlich erreichbar und mit Tensor-Parallelismus über vLLM oder DeepSpeed konfigurierbar. Entscheidend ist dabei die GPU-Verbindungsbandbreite: Ohne NVLink oder NVSwitch können Inter-GPU-Kommunikationskosten den Speedup erheblich mindern.

← Zurück zum Glossar