Epoch

Begriff

Ein kompletter Durchlauf durch alle Trainingsdaten. Training läuft oft über mehrere Epochen.

Was ist eine Epoch?

Eine Epoch (deutsch: Epoche) bezeichnet einen vollständigen Durchlauf durch den gesamten Trainingsdatensatz während des Trainings eines KI-Modells. Wenn ein Datensatz beispielsweise 10.000 Bilder enthält, ist eine Epoch abgeschlossen, sobald das Modell alle 10.000 Bilder einmal verarbeitet hat. Das Training eines Modells umfasst in der Regel mehrere Epochen, da ein einzelner Durchlauf selten ausreicht, um die optimalen Parameter zu finden.

Wie funktioniert das Training über Epochen?

In jeder Epoch werden die Trainingsdaten in kleinere Gruppen (Batches) aufgeteilt und nacheinander durch das Modell geschickt. Nach jedem Batch berechnet der Gradient-Descent-Algorithmus eine Anpassung der Modellgewichte. Mit jeder weiteren Epoch hat das Modell die Gelegenheit, seine Parameter weiter zu verfeinern und Muster in den Daten besser zu erkennen. Dabei wird die Reihenfolge der Daten üblicherweise bei jeder Epoch zufällig neu gemischt, um zu verhindern, dass das Modell die Reihenfolge statt der eigentlichen Inhalte lernt.

Wie viele Epochen sind optimal?

Die richtige Anzahl an Epochen ist entscheidend für die Modellqualität. Zu wenige Epochen führen zu Underfitting – das Modell hat die Muster in den Daten noch nicht ausreichend gelernt. Zu viele Epochen verursachen Overfitting – das Modell lernt die Trainingsdaten auswendig und versagt bei neuen Daten. In der Praxis wird die optimale Epochenzahl durch Evaluation auf einem separaten Validierungsdatensatz bestimmt. Bei großen Sprachmodellen (LLMs) reichen oft ein bis zwei Epochen, während beim Fine-Tuning mit kleineren Datensätzen drei bis zehn Epochen üblich sind.

Warum ist die Epoch wichtig?

Die Epochenzahl gehört zu den wichtigsten Hyperparametern beim Modelltraining. Sie beeinflusst direkt die Trainingskosten, denn mehr Epochen bedeuten mehr Rechenzeit und höhere GPU-Kosten. Für Unternehmen, die eigene Modelle trainieren oder anpassen, ist das Verständnis von Epochen daher auch eine betriebswirtschaftliche Frage: Wie viel Trainingszeit ist nötig, um die gewünschte Modellqualität zu erreichen, ohne unnötige Ressourcen zu verschwenden?

Verwandte Begriffe

Gradient Descent · Hyperparameter · Overfitting · Fine-Tuning · Evaluation

← Zurück zum Glossar