Overfitting

Training

Modell lernt Trainingsdaten auswendig, generalisiert aber schlecht auf neue Daten. Häufiges Problem.

Was ist Overfitting?

Overfitting (Überanpassung) liegt vor, wenn ein KI-Modell die Trainingsdaten zu genau lernt -- einschließlich ihrer Zufälligkeiten, ihres Rauschens und ihrer Besonderheiten -- und dadurch auf neuen, unbekannten Daten schlecht abschneidet. Das Modell hat im Training quasi "die Antworten auswendig gelernt", statt die zugrundeliegenden Muster zu verstehen. Es ist eines der häufigsten und grundlegendsten Probleme im Machine Learning.

Ein anschauliches Beispiel: Ein Modell zur Kreditwürdigkeitsprüfung, das auf historischen Daten trainiert wird, könnte lernen, dass Kunden mit bestimmten Postleitzahlen immer kreditwürdig sind. In Wirklichkeit ist die Postleitzahl aber kein kausaler Faktor, sondern nur ein zufälliges Muster in den Trainingsdaten.

Wie funktioniert Overfitting?

Overfitting tritt auf, wenn das Modell zu viele Parameter im Verhältnis zur Menge der Trainingsdaten hat, wenn zu lange trainiert wird oder wenn die Trainingsdaten nicht repräsentativ für die reale Anwendung sind. Ein Modell mit Millionen von Parametern kann praktisch jede Datenmenge auswendig lernen -- die Frage ist, ob es dabei tatsächlich nützliche Muster erkennt.

Erkennbar ist Overfitting daran, dass der Training-Loss sinkt, aber der Validation-Loss (gemessen auf einem separaten Datensatz) stagniert oder steigt. Diese Schere zwischen Trainings- und Validierungsperformance ist das klassische Warnsignal. Gegenmaßnahmen umfassen Regularization-Techniken wie Dropout, Weight Decay oder Data Augmentation, die Vergrößerung des Datensatzes sowie Early Stopping, bei dem das Training abgebrochen wird, sobald der Validation-Loss nicht mehr sinkt.

Warum ist Overfitting wichtig?

Für Unternehmen ist Overfitting ein direktes Geschäftsrisiko. Ein überangepasstes Modell liefert in der Testphase hervorragende Ergebnisse, versagt aber im Produktivbetrieb, wenn es mit realen, vielfältigen Daten konfrontiert wird. Das kann zu Fehlentscheidungen führen -- etwa bei der automatisierten Bewerbungssichtung, bei Betrugserkennungssystemen oder bei Nachfrageprognosen.

Bei der Evaluierung von KI-Lösungen sollten Sie daher immer nach der Validierungsmethodik fragen: Wurde das Modell auf einem unabhängigen Testdatensatz evaluiert? Wie verhält es sich mit Daten, die sich von den Trainingsdaten unterscheiden? Eine solide Validierung ist der wichtigste Schutz gegen Overfitting und somit gegen teure Fehlschläge im Praxiseinsatz.

Verwandte Begriffe

Regularization · Underfitting · Validation · Dropout · Memorization

← Zurück zum Glossar