6.1 Einführung

Clustering bzw. Clusteranalyse ist ein Beispiel für unüberwachtes Lernen (unsupervides learning), was bedeutet, dass es hierbei keine Trainingsdaten mit einem gelabelten Zielattribut gibt; es ist im Gegenteil gar kein bestimmtes Zielattribut vorhanden, für das eine Kategorie gefunden werden soll. Stattdessen verfolgt Clustering das Ziel, die Daten nach Ähnlichkeit zu gruppieren und dadurch verborgene Zusammenhänge zu entdecken. Die gefundenen bzw. erzeugten Gruppen werden als Cluster bezeichnet. Ziel ist es dabei, die Ähnlichkeit der Daten innerhalb eines Clusters zu maximieren und zwischen Clustern zu minimieren.

Clustering-Verfahren lassen sich in drei grobe Kategorien unterteilen, die partitionierenden Verfahren, das hierarchische Clustering sowie dichtebasierte Verfahren. Diese Kategorien sind jedoch nicht disjunkt, sondern charakterisieren eher die grundsätzliche Vorgehensweise.