Hyperparameter
BegriffEinstellungen, die vor dem Training festgelegt werden: Learning Rate, Batch Size, Anzahl Schichten. Beeinflussen Trainingserfolg.
Was sind Hyperparameter?
Hyperparameter sind Einstellungen, die vor dem Training eines KI-Modells festgelegt werden und den Trainingsprozess selbst steuern. Im Gegensatz zu normalen Parametern (den Modellgewichten), die das Modell während des Trainings automatisch lernt, werden Hyperparameter von Menschen oder durch automatische Suchverfahren bestimmt. Die Wahl der Hyperparameter hat erheblichen Einfluss darauf, ob ein Training erfolgreich verläuft, wie lange es dauert und wie gut das resultierende Modell arbeitet.
Wie werden Hyperparameter eingesetzt?
Zu den wichtigsten Hyperparametern gehören die Learning Rate (wie stark die Gewichte pro Trainingsschritt angepasst werden), die Batch Size (wie viele Datenpunkte gleichzeitig verarbeitet werden), die Anzahl der Epochen und die Modellarchitektur (Anzahl der Schichten, Neuronenanzahl pro Schicht). Bei Sprachmodellen kommen weitere Hyperparameter hinzu, etwa die Temperature bei der Textgenerierung oder die Kontextfenstergröße. Die Suche nach optimalen Hyperparametern – das Hyperparameter-Tuning – erfolgt oft durch systematisches Ausprobieren: Grid Search testet alle vordefinierten Kombinationen, Random Search wählt zufällige Kombinationen aus, und fortschrittliche Methoden wie Bayesian Optimization lernen aus bisherigen Versuchen, welche Kombinationen vielversprechend sind.
Hyperparameter vs. Parameter
Die Unterscheidung zwischen Hyperparametern und Parametern ist grundlegend. Parameter sind die Millionen oder Milliarden Gewichte im Modell, die durch Gradient Descent automatisch gelernt werden. Hyperparameter hingegen werden außerhalb des Trainingsprozesses festgelegt und bestimmen, wie dieser Lernprozess abläuft. Eine hilfreiche Analogie: Wenn das Training ein Kochvorgang ist, sind die Parameter die Zutaten, die sich beim Kochen verändern, und die Hyperparameter sind Temperatur, Kochzeit und Gerätewahl – Entscheidungen, die der Koch vor dem Kochen trifft.
Warum sind Hyperparameter wichtig?
Falsche Hyperparameter können dazu führen, dass ein Training trotz guter Daten und geeigneter Architektur scheitert. Gleichzeitig ist das Hyperparameter-Tuning oft der teuerste Teil eines KI-Projekts, da jede Konfiguration einen vollständigen Trainingslauf erfordert. Für Unternehmen ist es daher wichtig, die Kosten des Hyperparameter-Tunings von Anfang an in die Projektplanung einzubeziehen.
Verwandte Begriffe
Parameter · Gradient Descent · Epoch · Temperature · Fine-Tuning · Overfitting
← Zurück zum Glossar