Evaluation

Begriff

Bewertung der Modellleistung mit Testdaten, die nicht im Training verwendet wurden.

Was ist Evaluation?

Evaluation bezeichnet die systematische Bewertung der Leistung eines KI-Modells anhand von Daten, die nicht im Training verwendet wurden. Sie beantwortet die zentrale Frage: Wie gut funktioniert das Modell in der Praxis bei neuen, unbekannten Eingaben? Ohne sorgfältige Evaluation lässt sich nicht beurteilen, ob ein Modell tatsächlich nützliche Vorhersagen trifft oder lediglich Trainingsdaten auswendig gelernt hat.

Wie wird Evaluation eingesetzt?

Für die Evaluation werden die verfügbaren Daten typischerweise in drei Teile aufgeteilt: Trainingsdaten, Validierungsdaten und Testdaten. Die Validierungsdaten dienen dazu, während des Trainings die Hyperparameter zu optimieren und den besten Trainingszeitpunkt zu finden. Die Testdaten werden erst ganz am Ende verwendet, um eine unvoreingenommene Leistungsbewertung zu erhalten. Je nach Aufgabenstellung kommen unterschiedliche Metriken zum Einsatz: Accuracy misst den Anteil korrekter Vorhersagen, Recall zeigt, wie viele relevante Fälle gefunden wurden, Precision gibt an, wie zuverlässig positive Vorhersagen sind, und Perplexity bewertet die Qualität von Sprachmodellen.

Evaluation bei großen Sprachmodellen

Bei LLMs ist Evaluation besonders anspruchsvoll, da die Qualität von Textantworten schwerer messbar ist als etwa die Trefferquote eines Klassifikators. Hier kommen häufig menschliche Bewertungen, automatisierte Benchmarks wie MMLU oder HumanEval sowie vergleichende Bewertungen (A/B-Tests) zum Einsatz. Zunehmend werden auch andere KI-Modelle als Evaluatoren eingesetzt, um Antwortqualität, Faktentreue und Hilfsbereitschaft zu beurteilen.

Warum ist Evaluation wichtig?

Evaluation ist der wichtigste Qualitätssicherungsschritt im gesamten KI-Lebenszyklus. Ohne sie riskieren Unternehmen, fehlerhafte Modelle in Produktion zu bringen, die falsche Entscheidungen treffen oder Kundenvertrauen untergraben. Eine gute Evaluationsstrategie hilft auch, verschiedene Modellvarianten objektiv zu vergleichen und die beste Lösung für den jeweiligen Anwendungsfall auszuwählen.

Verwandte Begriffe

Accuracy · Overfitting · Hyperparameter · Epoch · Inference · Benchmark

← Zurück zum Glossar