Clustering
Unsupervised LearningUnüberwachte Lernmethode, die ähnliche Datenpunkte gruppiert, ohne vorgegebene Kategorien.
Was ist Clustering?
Clustering ist eine Methode des unüberwachten Lernens, bei der ein Algorithmus ähnliche Datenpunkte automatisch zu Gruppen (Clustern) zusammenfasst – ohne dass vorab Kategorien definiert werden müssen. Im Gegensatz zur Klassifikation gibt es keine gelabelten Trainingsdaten; der Algorithmus entdeckt die Struktur in den Daten selbstständig. Clustering beantwortet die Frage: „Welche natürlichen Gruppen existieren in meinen Daten?"
Wie funktioniert Clustering?
Clustering-Algorithmen messen die Ähnlichkeit zwischen Datenpunkten und ordnen ähnliche Punkte demselben Cluster zu. Der bekannteste Algorithmus ist K-Means, bei dem vorab die gewünschte Anzahl an Clustern festgelegt wird. Der Algorithmus verteilt die Datenpunkte iterativ so, dass die Abstände innerhalb jedes Clusters minimiert werden. Andere Verfahren wie DBSCAN erkennen die Clusteranzahl automatisch und können auch unregelmäßig geformte Gruppen finden. Besonders leistungsfähig wird Clustering in Kombination mit Embeddings: Texte, Bilder oder Kundendaten werden zunächst in numerische Vektoren umgewandelt, die ihre Bedeutung abbilden. Anschließend gruppiert der Clustering-Algorithmus diese Vektoren nach semantischer Ähnlichkeit – so lassen sich beispielsweise Tausende von Support-Tickets automatisch nach Themen sortieren, ohne je ein Label vergeben zu haben.
Warum ist Clustering wichtig?
Für Unternehmen ist Clustering ein mächtiges Werkzeug zur Datenexploration und Segmentierung. Typische Anwendungen sind Kundensegmentierung nach Kaufverhalten, automatische Themenerkennung in großen Dokumentenbeständen, Gruppierung ähnlicher Produkte oder die Erkennung von Anomalien – denn Datenpunkte, die zu keinem Cluster passen, fallen als Ausreißer auf. Der große Vorteil gegenüber der Klassifikation: Es werden keine aufwendig erstellten Trainingsdaten mit Labels benötigt. Clustering eignet sich deshalb besonders gut als erster Analyseschritt, um unbekannte Muster in Daten aufzudecken und daraus Handlungsempfehlungen abzuleiten.
Verwandte Begriffe
Unsupervised Learning, Embedding, Classification, Vektordatenbank, Semantische Suche
← Zurück zum Glossar