F1-Score
EvaluationDer F1-Score kombiniert Präzision und Recall zu einer Kennzahl und ist besonders bei ungleich verteilten Klassen aussagekräftiger als bloße Trefferquote.
Was ist der F1-Score?
Binäre Klassifikationsmodelle werden über eine Konfusionsmatrix bewertet. Aus ihr lassen sich vier Kennzahlen ableiten: True Positives, True Negatives, False Positives und False Negatives. Präzision (Precision) misst, wie viele der positiv klassifizierten Fälle tatsächlich positiv sind. Recall (Trefferquote) misst, wie viele der tatsächlich positiven Fälle korrekt erkannt wurden.
Der F1-Score ist das harmonische Mittel beider Kennzahlen: F1 = 2 × (Precision × Recall) / (Precision + Recall). Er liegt zwischen 0 (schlechteste) und 1 (beste Leistung). Das harmonische Mittel bestraft extreme Ungleichgewichte stärker als das arithmetische Mittel — ein Modell mit perfektem Recall aber schlechter Präzision erhält keinen guten F1-Score.
Wann welche Metrik?
Die Wahl der Evaluationsmetrik hängt vom Anwendungsfall ab:
- Accuracy: Nur sinnvoll bei ausgeglichenen Klassen (z. B. gleich viele Spam- und Nicht-Spam-Mails)
- Precision-Fokus: Wenn False Positives teuer sind (z. B. fälschlicherweise gesperrte Konten)
- Recall-Fokus: Wenn False Negatives teuer sind (z. B. übersehene Erkrankungen in der Medizin)
- F1-Score: Ausgeglichener Kompromiss, besonders bei unbalancierten Datensätzen
- Macro-F1: Berechnet F1 pro Klasse und mittelt, sinnvoll bei mehreren Klassen
Praxisbeispiel
Ein Betrugserkennungsmodell meldet von 10.000 Transaktionen 100 als betrügerisch. Tatsächlich sind 90 davon Betrug (Precision 90 %), aber es gibt 200 echte Betrugsfälle im Datensatz (Recall 45 %). Der F1-Score beträgt damit ca. 0,60 — trotz hoher Accuracy.
Relevanz für den Mittelstand
Wer KI-Modelle von Dienstleistern abnimmt oder selbst evaluiert, sollte nicht nur nach Accuracy fragen. Gerade bei praxisrelevanten Szenarien wie Qualitätskontrolle, Anomalieerkennung oder Dokumentenklassifikation mit ungleicher Klassenverteilung ist der F1-Score die aussagekräftigere Kennzahl. Sie hilft, Modelle realistisch zu vergleichen und fundierte Entscheidungen über Einsatzreife zu treffen.
← Zurück zum Glossar