Dataset

Datensatz

Strukturierte Sammlung von Daten fuer KI-Training oder Evaluation. Die Qualitaet des Datasets bestimmt die Modellqualitaet.

Was ist ein Dataset?

Ein Dataset (Datensatz) ist eine strukturierte Sammlung von Daten, die zum Training, zur Validierung oder zur Evaluation von KI-Modellen verwendet wird. Datasets können aus Bildern mit zugehörigen Labels, Textdokumenten mit Kategorien, Frage-Antwort-Paaren oder beliebigen anderen strukturierten Datenformaten bestehen. Die Qualität und Zusammensetzung eines Datasets ist einer der wichtigsten Faktoren für den Erfolg eines KI-Projekts.

Wie funktioniert ein Dataset?

Ein Dataset wird üblicherweise in drei Teilmengen aufgeteilt: Der Trainingssplit (ca. 80%) dient dem eigentlichen Lernen des Modells. Der Validierungssplit (ca. 10%) wird verwendet, um während des Trainings Hyperparameter zu optimieren und Overfitting frühzeitig zu erkennen. Der Testsplit (ca. 10%) bleibt bis zur finalen Bewertung unberührt und liefert eine unverfälschte Einschätzung der Modellleistung. Für die Erstellung hochwertiger Datasets ist häufig eine sorgfältige Annotation nötig – Menschen versehen die Daten mit den korrekten Labels oder Kategorien. Plattformen wie Hugging Face stellen Tausende öffentlich verfügbarer Datasets bereit, die als Ausgangspunkt für eigene Projekte dienen können. Auch synthetische Datasets, die von KI-Modellen selbst erzeugt werden, gewinnen zunehmend an Bedeutung.

Warum sind Datasets wichtig?

Das Prinzip „Garbage In, Garbage Out" gilt in der KI uneingeschränkt: Kein noch so ausgefeiltes Modell kann Mängel in den Trainingsdaten kompensieren. Verzerrte, unvollständige oder fehlerhaft gelabelte Daten führen zu unzuverlässigen Vorhersagen und können im geschäftlichen Einsatz erheblichen Schaden anrichten. Für Unternehmen bedeutet das, dass die Investition in saubere, repräsentative und korrekt annotierte Datasets mindestens ebenso wichtig ist wie die Wahl der richtigen Modellarchitektur. Darüber hinaus erfordern viele Branchen – insbesondere Gesundheitswesen, Finanzsektor und öffentliche Verwaltung – eine nachvollziehbare Dokumentation der verwendeten Daten, um regulatorische Anforderungen zu erfüllen.

Verwandte Begriffe

Annotation, Label, Training, Data Augmentation, Benchmark, Bias

← Zurück zum Glossar