Catastrophic Forgetting
TrainingFundamentales Problem neuronaler Netze: Beim Lernen neuer Aufgaben werden zuvor erlernte Fähigkeiten teilweise überschrieben.
Was ist Catastrophic Forgetting?
Catastrophic Forgetting (katastrophales Vergessen) bezeichnet das Phänomen, dass neuronale Netze beim Training auf neue Aufgaben oder Daten die Fähigkeiten aus vorherigen Trainingsschritten signifikant degradieren. Anders als Menschen, die Neues lernen können, ohne Altes vollständig zu vergessen, überschreiben Gradientenaktualisierungen im neuronalen Netz ältere Gewichtskonfigurationen.
Im Kontext von LLMs tritt das Problem beim Fine-Tuning auf: Ein auf allgemeinem Text vortrainiertes Modell kann nach intensivem Domänen-Fine-Tuning allgemeine Sprachkompetenz verlieren.
Gegenmaßnahmen
Die Forschung bietet verschiedene Strategien, um Catastrophic Forgetting zu mildern. Die wirksamsten Ansätze im LLM-Kontext kombinieren datenseitige und architekturelle Maßnahmen.
- PEFT (LoRA): Nur wenige neue Parameter trainieren, Basismodell eingefroren – minimales Vergessen
- Replay-Methoden: Mischung aus alten und neuen Trainingsdaten bewahrt generelles Wissen
- Elastic Weight Consolidation (EWC): Bestraft Änderungen an besonders wichtigen Gewichten
- Niedrige Lernrate beim Fine-Tuning reduziert Überschreiben bestehender Gewichte
Merksatz
Wer ein Modell auf nur wenigen Domänendaten trainiert, riskiert, dass es hinterher gut Rechnungen schreibt, aber schlechte Grammatik produziert – das Basiswissen wurde teilweise überschrieben.
Relevanz für den Mittelstand
KMU, die Modelle für spezifische Aufgaben fine-tunen (etwa Kundenservice oder technische Dokumentation), sollten nach dem Training evaluieren, ob allgemeine Fähigkeiten erhalten geblieben sind. Praktische Abhilfe: PEFT-Methoden wie LoRA einsetzen und die Lernrate niedrig halten – das schützt das generelle Sprachverständnis weitgehend.
← Zurück zum Glossar