Memorization

Training

Wenn ein Modell Trainingsdaten auswendig lernt statt zu generalisieren. Problematisch für Datenschutz.

Was ist Memorization?

Memorization (Auswendiglernen) bezeichnet das Phänomen, dass ein KI-Modell spezifische Daten aus seinem Training wörtlich speichert und reproduzieren kann, anstatt allgemeine Muster und Regeln zu lernen. Ein Sprachmodell, das einen bestimmten Zeitungsartikel Wort für Wort wiedergeben kann, hat diesen Text memorisiert. Das ist problematisch, weil es Datenschutzrisiken birgt und darauf hindeutet, dass das Modell nicht optimal generalisiert.

Memorization ist nicht grundsätzlich schlecht -- ein Modell soll sich durchaus Fakten merken. Problematisch wird es, wenn persönliche Daten, urheberrechtlich geschützte Texte oder vertrauliche Informationen reproduziert werden können.

Wie funktioniert Memorization?

Memorization entsteht, wenn bestimmte Datenbeispiele während des Trainings besonders häufig vorkommen oder wenn das Modell über ausreichend Kapazität (Parameter) verfügt, um einzelne Beispiele wörtlich zu speichern. Große Sprachmodelle mit Hunderten Milliarden Parametern haben genug Kapazität, um erhebliche Mengen an Trainingsdaten zu memorisieren.

Forscher haben gezeigt, dass Sprachmodelle durch geschicktes Prompting dazu gebracht werden können, Telefonnummern, E-Mail-Adressen oder ganze Textpassagen aus den Trainingsdaten auszugeben. Die Wahrscheinlichkeit der Memorization steigt mit der Häufigkeit eines Datenpunkts in den Trainingsdaten und mit der Größe des Modells. Gegenmaßnahmen umfassen Deduplizierung der Trainingsdaten, Differential Privacy und gezielte Filterung sensibler Inhalte.

Warum ist Memorization wichtig?

Für Unternehmen hat Memorization zwei kritische Dimensionen. Erstens die Datenschutz-Perspektive: Wenn Sie firmeneigene Daten zum Training oder Fine-Tuning eines Modells verwenden, könnten vertrauliche Informationen wie Kundendaten, Geschäftsgeheimnisse oder interne Kommunikation im Modell gespeichert und von anderen Nutzern abgerufen werden. Dies ist besonders relevant im Kontext der DSGVO.

Zweitens die Qualitätsperspektive: Ein Modell, das stark memorisiert, generalisiert schlecht auf neue, unbekannte Eingaben. Es liefert möglicherweise beeindruckende Ergebnisse bei bekannten Szenarien, versagt aber bei leicht veränderten Anforderungen. Bei der Auswahl von KI-Lösungen sollten Sie daher fragen, welche Maßnahmen gegen unerwünschte Memorization getroffen werden.

Verwandte Begriffe

Overfitting · Regularization · Training · Parameter · Halluzination

← Zurück zum Glossar