INT4/INT8

Quantisierungsformat

Ganzzahl-Formate für Quantisierung. INT8 = 8-bit Integer, INT4 = 4-bit. Drastisch reduzierter Speicherbedarf.

Was ist INT4/INT8?

INT4 und INT8 sind ganzzahlige Zahlenformate (Integer), die bei der Quantisierung von KI-Modellen eingesetzt werden. INT8 verwendet 8 Bit pro Zahl und kann Werte von -128 bis 127 darstellen, INT4 verwendet nur 4 Bit mit einem Wertebereich von -8 bis 7. Im Vergleich zu den Gleitkommaformaten FP16 (16 Bit) und FP32 (32 Bit) bieten sie eine drastische Speicherreduktion: Ein Modell in INT4 benötigt nur ein Achtel des Speichers gegenüber FP32.

Wie wird INT4/INT8 eingesetzt?

Bei der Quantisierung werden die ursprünglich in FP16 oder FP32 gespeicherten Modellgewichte in das kompaktere INT-Format umgewandelt. Dabei wird der Wertebereich der Gewichte auf den kleineren Ganzzahlbereich abgebildet. INT8-Quantisierung ist mittlerweile ein Standardverfahren, das bei den meisten Modellen nur minimale Qualitätseinbußen verursacht. INT4-Quantisierung ist aggressiver und kann zu spürbaren Qualitätsverlusten führen, ermöglicht aber den Betrieb sehr großer Modelle auf Consumer-Hardware. Moderne Quantisierungsmethoden wie GPTQ, AWQ oder GGUF verwenden ausgefeilte Algorithmen, um die Qualitätsverluste zu minimieren – etwa indem besonders wichtige Gewichte mit höherer Präzision beibehalten werden.

Praktische Auswirkungen

Die Zahlen sprechen für sich: Ein LLM mit 70 Milliarden Parametern benötigt in FP16 etwa 140 GB GPU-Speicher – mehr, als eine einzelne High-End-GPU bietet. In INT4-Quantisierung schrumpft der Bedarf auf etwa 35 GB und passt damit auf eine einzelne GPU mit 48 GB Speicher. Für die Inference bedeutet INT-Quantisierung zudem höhere Geschwindigkeit, da weniger Daten zwischen Speicher und Prozessor übertragen werden müssen. Viele Open-Source-Modelle wie Llama werden von der Community in verschiedenen Quantisierungsstufen bereitgestellt, sodass Nutzer je nach verfügbarer Hardware die passende Version wählen können.

Warum ist INT4/INT8 wichtig?

INT4/INT8-Quantisierung demokratisiert den Zugang zu leistungsfähigen KI-Modellen. Was vorher teure Server-Hardware mit mehreren GPUs erforderte, lässt sich durch Quantisierung auf einer einzigen GPU oder sogar auf Endgeräten betreiben. Für Unternehmen senkt das die Einstiegskosten und Betriebskosten erheblich und ermöglicht auch den Einsatz von KI in datenschutzsensiblen Szenarien, in denen eine lokale Verarbeitung ohne Cloud-Anbindung gewünscht ist.

Verwandte Begriffe

FP16/FP32 · Quantisierung · Inference · Parameter · LLM · GPU

← Zurück zum Glossar