Weight
GrundbegriffDie gelernten Parameter eines neuronalen Netzes. Werden beim Training angepasst.
Was ist Weight?
Weights (Gewichte) sind die gelernten Parameter eines neuronalen Netzes. Sie sind die numerischen Werte, die bestimmen, wie stark ein Signal von einem Neuron zum nächsten weitergeleitet wird. Wenn davon gesprochen wird, dass ein Modell wie GPT-4 über eine Billion Parameter hat, sind damit in erster Linie Weights gemeint. Das gesamte Wissen eines trainierten Modells steckt in seinen Weights. Man kann sie als das Gedächtnis der KI verstehen: Sie kodieren alles, was das Modell während des Trainings gelernt hat.
Wie funktionieren Weights?
Vor dem Training werden Weights mit kleinen zufälligen Werten initialisiert. Während des Trainings werden sie in Tausenden bis Millionen von Iterationen schrittweise angepasst. In jedem Schritt berechnet das Netzwerk eine Vorhersage, vergleicht sie mit dem gewünschten Ergebnis und passt die Weights über den Backpropagation-Algorithmus an, um den Fehler zu reduzieren. Die Lernrate bestimmt dabei, wie groß die einzelnen Anpassungsschritte sind.
Jede Verbindung zwischen zwei Neuronen hat ein eigenes Weight. Ein einfaches Netzwerk mit 1.000 Neuronen in zwei Schichten hat bereits eine Million Weights (1.000 x 1.000 Verbindungen). Große Sprachmodelle wie LLaMA 70B haben 70 Milliarden Weights. Neben Weights gibt es noch Biases, die als zusätzliche Verschiebungswerte dienen. Zusammen bilden Weights und Biases die trainierbaren Parameter des Modells. Nach dem Training werden die Weights eingefroren und für die Inferenz verwendet.
Warum sind Weights wichtig?
Weights bestimmen die Qualität und die Fähigkeiten eines KI-Modells. Wenn Unternehmen ein Open-Source-Modell herunterladen, laden sie im Wesentlichen dessen Weights herunter. Die Modellgröße in Parametern (und damit die Anzahl der Weights) beeinflusst direkt den VRAM-Bedarf, die Inferenzgeschwindigkeit und die Betriebskosten. Techniken wie Quantisierung reduzieren die Genauigkeit der Weights (z.B. von 16 auf 4 Bit), um Modelle auf günstigerer Hardware lauffähig zu machen, mit oft nur geringem Qualitätsverlust.
Verwandte Begriffe
Training · VRAM · Fine-Tuning · Quantisierung · Vanishing Gradient
← Zurück zum Glossar