Parameter

Modellarchitektur

Die "Stellschrauben" eines Modells - Zahlen, die beim Training gelernt werden. GPT-4 hat ~1,7 Billionen Parameter.

Was ist ein Parameter?

Parameter sind die numerischen Werte innerhalb eines KI-Modells, die während des Trainings automatisch gelernt und angepasst werden. Sie bilden das "Wissen" des Modells. Jeder Parameter ist eine einzelne Zahl -- ein Gewicht (Weight) oder ein Bias -- die bestimmt, wie stark ein bestimmtes Signal innerhalb des neuronalen Netzes weitergeleitet wird. Moderne Sprachmodelle besitzen Milliarden solcher Parameter: LLaMA 3 hat 70 Milliarden, GPT-4 wird auf über eine Billion geschätzt.

Parameter sind nicht zu verwechseln mit Hyperparametern: Während Parameter vom Modell selbst gelernt werden, werden Hyperparameter (wie Learning Rate oder Batch Size) vom Menschen vor dem Training festgelegt.

Wie funktionieren Parameter?

Vor dem Training werden alle Parameter zufällig initialisiert. Dann durchläuft das Modell iterativ Trainingsdaten: Es macht Vorhersagen, vergleicht sie mit den erwarteten Ergebnissen, berechnet den Fehler (Loss) und passt die Parameter über Backpropagation und Gradient Descent schrittweise an. Dieser Prozess wiederholt sich Millionen oder Milliarden Male, bis die Parameter Werte erreicht haben, die gute Vorhersagen ermöglichen.

In einem Transformer-Modell sind die Parameter in verschiedenen Komponenten verteilt: in den Attention-Schichten (Query-, Key- und Value-Matrizen), in den Feed-Forward-Schichten und in den Embedding-Schichten. Die Gesamtzahl der Parameter ergibt sich aus der Modellbreite (Dimension der Vektoren), der Tiefe (Anzahl der Schichten) und der Vokabulargröße.

Warum sind Parameter wichtig?

Die Parameterzahl ist ein häufig zitiertes Maß für die "Größe" eines Modells, aber größer bedeutet nicht automatisch besser. Entscheidend ist, wie effizient die Parameter genutzt werden und mit welchen Daten das Modell trainiert wurde. Kleinere Modelle mit hochwertigen Trainingsdaten können größere Modelle in bestimmten Aufgaben übertreffen.

Für Unternehmen hat die Parameterzahl praktische Auswirkungen: Mehr Parameter bedeuten höheren Speicherbedarf (VRAM), längere Inferenzzeiten und höhere Betriebskosten. Ein 70-Milliarden-Parameter-Modell benötigt deutlich leistungsfähigere Hardware als ein 7-Milliarden-Modell. Die Wahl der richtigen Modellgröße ist daher eine wichtige Abwägung zwischen Leistungsfähigkeit und Betriebskosten.

Verwandte Begriffe

Weight · Hyperparameter · Training · Quantization · VRAM

← Zurück zum Glossar