6.2 Distanz

Um den Begriff der Ähnlichkeit zwischen Daten zu quantifizieren, benötigt man ein Distanzmaß. Zwei Datenpunkte werden also als umso ähnlicher angesehen, je geringer die Distanz zwischen ihnen ist. Distanzmaße wurden bereits im Kapitel zur Klassifikation (s. k-Nearest-Neighbor (Abschnitt 4.3) bzw Distanzmaße (Abschnitt 2.4.3)) beschrieben. Auch beim Clustering können ganz unterschiedliche Distanzmaße verwendet werden. Wichtig ist eine Normalisierung der Daten, um Unterschiede in den Wertebereichen verschiedener Dimensionen (Attribute) auszugleichen. Bei kategorialen Attributen, die keine sinnvolle Abstandsmessung zwischen Ausprägungen zulassen (z.B. nominal, ordinal) bietet sich ein One-Hot-Encoding (s. Abschnitt 2.4.2) an.