Synthetische Daten
DatenKI-generierte Trainingsdaten, die echte Datensätze bei Knappheit, Datenschutzanforderungen oder langen Tail-Szenarien ersetzen.
Was sind synthetische Daten?
Synthetische Daten sind Trainingsdaten, die algorithmisch oder durch ein KI-Modell erzeugt wurden – nicht durch reale Messung, Beobachtung oder manuelle Annotation. Im LLM-Bereich bedeutet das häufig: Ein leistungsfähiges Modell (z. B. GPT-4 oder Claude) generiert Prompt-Antwort-Paare, die dann zum Fine-Tuning eines kleineren Modells genutzt werden.
Synthetische Daten lösen mehrere praktische Probleme: echte Daten sind oft knapp, teuer in der Annotation, datenschutzrechtlich problematisch oder decken seltene Szenarien nicht ab.
Einsatzszenarien und Risiken
Synthetische Daten sind kein Allheilmittel. Werden sie unkritisch eingesetzt, besteht die Gefahr von Model Collapse: Modelle, die auf von KI erzeugten Daten trainieren, können Fehler und Artefakte des Generator-Modells übernehmen.
- Datenschutz: Keine echten Kundendaten im Training – synthetische Varianten stattdessen
- Skalierung: Günstige Erzeugung großer, diverser Datensätze für Nischenaufgaben
- Augmentierung: Ergänzung echter Daten um seltene Fälle und Randszenarien
- Risiko: Fehler des Generator-Modells propagieren sich in den Trainingsdaten
- Qualitätssicherung: Menschliche Stichprobenkontrolle bleibt unverzichtbar
Praxisbeispiel
Ein Maschinenbauer möchte einen Support-Bot trainieren, hat aber nur 200 echte Tickets. Ein LLM generiert 5.000 synthetische Ticket-Antwort-Paare auf Basis von Produkthandbüchern – genug für solides SFT.
Relevanz für den Mittelstand
Synthetische Daten sind für KMU besonders wertvoll, weil interne Datensätze oft zu klein für effektives Fine-Tuning sind. Mit einem starken Frontier-Modell als Datengenerator lassen sich Trainingsmengen kostengünstig aufbauen – ohne Datenschutzverletzung, da keine echten Kundendaten genutzt werden müssen. Entscheidend ist eine Qualitätsprüfung der generierten Beispiele.
← Zurück zum Glossar