VRAM

Hardware

Video RAM - Speicher der Grafikkarte. Bestimmt, wie grosse Modelle geladen werden koennen.

Was ist VRAM?

VRAM (Video Random Access Memory) ist der Arbeitsspeicher einer Grafikkarte (GPU). Im KI-Kontext ist VRAM der wichtigste limitierende Faktor: Er bestimmt, wie große Modelle geladen, trainiert und für Inferenz genutzt werden können. Während normaler Arbeitsspeicher (RAM) für CPU-Operationen genutzt wird, befindet sich VRAM direkt auf der GPU und ermöglicht die massiv parallele Verarbeitung, die KI-Berechnungen erfordert. Aktuelle KI-GPUs bieten zwischen 16 GB (Consumer-Karten) und 80 GB (professionelle Karten wie NVIDIA A100 oder H100) VRAM.

Wie funktioniert VRAM im KI-Einsatz?

Beim Laden eines KI-Modells müssen alle Modellgewichte in den VRAM geladen werden. Ein Modell mit 7 Milliarden Parametern benötigt bei voller Genauigkeit (FP32) etwa 28 GB VRAM, nur für die Gewichte. Dazu kommt Speicher für die Eingabedaten, Zwischenergebnisse und bei Training auch für die Gradienten und Optimizer-Zustände. Beim Training wird daher etwa drei- bis viermal so viel VRAM benötigt wie bei der reinen Inferenz.

Um VRAM-Engpässe zu überwinden, gibt es mehrere Strategien: Quantisierung reduziert die Genauigkeit der Gewichte von 32 Bit auf 16, 8 oder sogar 4 Bit, was den Speicherbedarf proportional senkt. Model Parallelism verteilt ein einzelnes Modell über mehrere GPUs. Offloading lagert Teile des Modells in den langsameren CPU-RAM aus. Gradient Checkpointing spart VRAM beim Training, indem Zwischenergebnisse neu berechnet statt gespeichert werden.

Warum ist VRAM wichtig?

VRAM ist oft der Flaschenhals bei KI-Projekten und ein wesentlicher Kostenfaktor. Die Entscheidung zwischen Cloud-GPUs und eigener Hardware hängt maßgeblich vom VRAM-Bedarf ab. Eine NVIDIA H100 mit 80 GB VRAM kostet als Cloud-Instanz mehrere Euro pro Stunde. Unternehmen sollten daher genau kalkulieren, welche Modellgröße sie tatsächlich benötigen. Oft liefern kleinere, quantisierte Modelle auf günstigerer Hardware vergleichbare Ergebnisse für den spezifischen Anwendungsfall.

Verwandte Begriffe

Training · Inferenz · Quantisierung · Throughput · Weight

← Zurück zum Glossar