Label
TrainingMarkierung/Kategorie eines Datenpunkts im überwachten Lernen. "Diese E-Mail ist Spam" - "Spam" ist das Label.
Was ist ein Label?
Ein Label (deutsch: Bezeichnung oder Etikett) ist die Zielkategorie oder der Zielwert, der einem Datenpunkt im überwachten Lernen zugeordnet wird. Labels sind die "richtige Antwort", an der das Modell lernt. Wenn Sie einem KI-Modell beibringen möchten, Spam-E-Mails zu erkennen, ist jede E-Mail ein Datenpunkt und das Label sagt: "Spam" oder "Kein Spam". Das Modell lernt aus Tausenden solcher gelabelten Beispiele, um anschließend neue E-Mails selbständig einzuordnen.
Labels können unterschiedliche Formen annehmen: Kategorien (Spam/Kein Spam), Zahlen (Preis eines Hauses), Begrenzungsrahmen um Objekte in Bildern oder sogar ganze Textübersetzungen.
Wie funktioniert Labeling?
Der Prozess der Label-Erstellung heißt Annotation oder Labeling. Dabei werden Rohdaten von Menschen -- sogenannten Annotatoren -- mit den korrekten Zielwerten versehen. Für ein Bilderkennungssystem markieren Annotatoren beispielsweise auf Fotos, wo sich Fußgänger, Fahrzeuge oder Verkehrsschilder befinden.
Die Qualität der Labels bestimmt direkt die Qualität des trainierten Modells. Fehlerhafte oder inkonsistente Labels führen zu einem Modell, das falsche Muster lernt. Deshalb setzen professionelle KI-Projekte auf mehrfache Annotation (mehrere Personen labeln denselben Datenpunkt) und strenge Qualitätsprüfungen. Der Labeling-Prozess ist oft der teuerste und zeitaufwendigste Teil eines KI-Projekts.
Warum sind Labels wichtig?
Ohne Labels kein überwachtes Lernen -- und überwachtes Lernen ist nach wie vor die Grundlage der meisten geschäftlichen KI-Anwendungen. Die Verfügbarkeit und Qualität gelabelter Daten entscheidet häufig darüber, ob ein KI-Projekt erfolgreich umgesetzt werden kann oder nicht. Unternehmen, die über gut strukturierte und korrekt gelabelte Daten verfügen, haben einen erheblichen Wettbewerbsvorteil.
In der Praxis bedeutet das: Bevor Sie ein KI-Projekt starten, sollten Sie prüfen, welche Daten bereits vorhanden sind und ob diese geeignete Labels tragen. Oft lassen sich bestehende Geschäftsdaten -- etwa Kategorisierungen in einem CRM-System oder Bewertungen im Ticketsystem -- als Labels nutzen.
Verwandte Begriffe
Supervised Learning · Annotation · Dataset · Classification · Training
← Zurück zum Glossar