Data Augmentation
DatenanreicherungKuenstliche Vervielfaeltigung von Trainingsdaten durch Variationen. Verbessert Modellqualitaet bei wenig Daten.
Was ist Data Augmentation?
Data Augmentation (Datenanreicherung) ist eine Technik, bei der aus vorhandenen Trainingsdaten künstlich neue Varianten erzeugt werden, um den Datensatz zu vergrößern und zu diversifizieren. Das Ziel ist, dem Modell mehr Variation zu zeigen, damit es robuster generalisiert und weniger anfällig für Overfitting wird. Data Augmentation ist besonders wertvoll, wenn nur begrenzte Mengen an Trainingsdaten zur Verfügung stehen.
Wie funktioniert Data Augmentation?
Die konkreten Techniken hängen vom Datentyp ab. Bei Bildern werden geometrische Transformationen angewandt – Drehen, Spiegeln, Zuschneiden, Skalieren – sowie photometrische Veränderungen wie Anpassung von Helligkeit, Kontrast oder Farbsättigung. Auch das Hinzufügen von Rauschen oder das zufällige Ausblenden von Bildbereichen sind gängige Methoden. Bei Textdaten kommen Techniken wie Synonym-Ersetzung, zufälliges Einfügen oder Löschen von Wörtern und Back-Translation zum Einsatz – dabei wird ein Satz in eine andere Sprache übersetzt und zurückübersetzt, wodurch natürliche Umformulierungen entstehen. Zunehmend werden auch Large Language Models genutzt, um synthetische Trainingsbeispiele zu generieren – etwa zusätzliche Frage-Antwort-Paare oder Textklassifikationsbeispiele. Entscheidend ist, dass die Augmentation die inhaltliche Bedeutung der Daten nicht verfälscht: Ein um 180 Grad gedrehtes Verkehrsschild wäre keine sinnvolle Augmentation für ein Modell zur Verkehrszeichenerkennung.
Warum ist Data Augmentation wichtig?
In vielen Geschäftsszenarien ist das Sammeln und Annotieren großer Datenmengen teuer und zeitaufwendig. Data Augmentation ermöglicht es, auch mit kleineren Datensätzen leistungsfähige Modelle zu trainieren. Studien zeigen, dass gut gewählte Augmentation-Strategien die Modellgenauigkeit um 5 bis 20 Prozent verbessern können. Für Unternehmen bedeutet das konkret: Geringere Kosten für Datenerhebung, schnelleres Erreichen einer produktionsreifen Modellqualität und bessere Robustheit des Modells gegenüber Variationen in realen Eingabedaten.
Verwandte Begriffe
Dataset, Overfitting, Training, Annotation, Generative AI
← Zurück zum Glossar