Batch Size
HyperparameterAnzahl der Trainingsbeispiele, die gleichzeitig verarbeitet werden. Größere Batches = schneller, aber mehr Speicherbedarf.
Was ist Batch Size?
Die Batch Size (Stapelgröße) ist ein Hyperparameter, der festlegt, wie viele Trainingsbeispiele gleichzeitig verarbeitet werden, bevor die Gewichte des Modells aktualisiert werden. Anstatt nach jedem einzelnen Beispiel zu lernen, fasst das Modell mehrere Beispiele zu einem Batch zusammen und berechnet den durchschnittlichen Fehler über diesen Stapel. Die Batch Size beeinflusst sowohl die Trainingsgeschwindigkeit als auch die Qualität des resultierenden Modells erheblich.
Wie funktioniert Batch Size?
Während des Trainings wird der gesamte Datensatz in Batches aufgeteilt. Für jeden Batch berechnet das Modell Vorhersagen, ermittelt den Fehler und aktualisiert seine Gewichte via Backpropagation. Eine große Batch Size (z.B. 512 oder mehr) liefert stabilere Gradienten, da der Fehler über viele Beispiele gemittelt wird – benötigt aber entsprechend mehr GPU-Speicher. Kleine Batch Sizes (z.B. 8 oder 16) kommen mit weniger Speicher aus und erzeugen ein gewisses Rauschen in den Gradienten, das paradoxerweise die Generalisierung des Modells verbessern kann. Als Kompromiss gibt es die Technik der Gradient Accumulation: Dabei werden die Gradienten mehrerer kleiner Batches aufaddiert, bevor die Gewichte aktualisiert werden – so lässt sich eine effektiv größere Batch Size simulieren, ohne den Speicher zu sprengen.
Warum ist Batch Size wichtig?
Die Wahl der richtigen Batch Size hat direkten Einfluss auf Trainingskosten und Modellqualität. Eine zu große Batch Size kann dazu führen, dass das Modell in lokalen Minima stecken bleibt und schlechter generalisiert. Eine zu kleine Batch Size verlängert die Trainingszeit erheblich, weil die GPU nicht ausgelastet wird. In der Praxis experimentieren Teams typischerweise mit verschiedenen Werten und beobachten, wie sich die Loss-Funktion entwickelt. Für Unternehmen bedeutet das: Die Batch Size ist einer der ersten Hebel, an dem gedreht wird, wenn ein Training zu langsam läuft oder das Budget für GPU-Stunden begrenzt ist.
Verwandte Begriffe
Hyperparameter, Epoch, Learning Rate, Training, GPU, VRAM
← Zurück zum Glossar