FP16/FP32

Begriff

Zahlenformate für Modellgewichte. FP16 (16-bit) braucht weniger Speicher als FP32 (32-bit), bei minimalem Qualitätsverlust.

Was ist FP16/FP32?

FP16 und FP32 bezeichnen Gleitkomma-Zahlenformate, die angeben, mit welcher Genauigkeit die Gewichte eines KI-Modells gespeichert werden. FP32 (32-bit Floating Point) nutzt 32 Bit pro Zahl und bietet hohe Präzision. FP16 (16-bit Floating Point) nutzt nur 16 Bit und benötigt damit halb so viel Speicherplatz. Ein weiteres gängiges Format ist BF16 (Brain Floating Point 16), das von Google speziell für KI-Anwendungen entwickelt wurde und einen größeren Wertebereich als FP16 bietet.

Wie wird FP16/FP32 eingesetzt?

Beim Training von KI-Modellen wurde traditionell FP32 verwendet, da die volle Präzision für die Berechnung der Gradienten vorteilhaft ist. Moderne Trainingsmethoden setzen jedoch auf Mixed Precision Training: Die Vorwärtsberechnung erfolgt in FP16 für Geschwindigkeit, während kritische Berechnungen wie die Gewichts-Updates in FP32 durchgeführt werden. Bei der Inference – also der Anwendung des fertigen Modells – reicht FP16 in den meisten Fällen völlig aus, da die minimale Genauigkeitseinbuße in der Praxis kaum messbar ist. Ein Modell mit 7 Milliarden Parametern benötigt in FP32 etwa 28 GB GPU-Speicher, in FP16 nur 14 GB.

FP16/FP32 und Quantisierung

FP16 und FP32 sind Teil eines größeren Spektrums an Zahlenformaten. Wer noch weiter komprimieren möchte, kann auf INT8 oder INT4 zurückgreifen – ganzzahlige Formate, die durch Quantisierung noch deutlich weniger Speicher benötigen. Die Wahl des Zahlenformats ist immer ein Kompromiss zwischen Modellqualität, Geschwindigkeit und Hardwareanforderungen.

Warum ist FP16/FP32 wichtig?

Die Wahl des Zahlenformats hat direkten Einfluss auf die Kosten und die Machbarkeit von KI-Projekten. FP16 ermöglicht es, größere Modelle auf derselben Hardware zu betreiben oder bestehende Modelle schneller auszuführen. Für Unternehmen, die KI-Modelle selbst hosten möchten, bestimmt das Zahlenformat maßgeblich, welche GPU-Hardware benötigt wird und welche laufenden Kosten entstehen.

Verwandte Begriffe

INT4/INT8 · Quantisierung · Parameter · Inference · Gradient

← Zurück zum Glossar