2.3 Visualisierungen

Die Visualisierung ist generell ein sehr hilfreiches und nützliches Werkzeug im Bereich des Machine Learning und Data Mining. Insbesondere im ersten Schritt der explorativen Datenanalyse, um die Daten kennenzulernen, ist die Visualisierung der Daten ein wesentliches Element, um mit diesen vertraut zu werden.

Für die Darstellung, wie oft ein kategorisches Merkmal im Datensatz auftritt, wählt man ein einfaches Häufigkeitsdiagramm (Count Plot). Es werden, entsprechend der Abbildung 2.3, auf der x-Achse die jeweiligen Ausprägungen aufgelistet. Die einzelnen Säulen haben hierbei eine klare Trennung zueinander, um den strikten Unterschied aufzuzeigen. Die y-Achse zeigt den Wertebereich auf, in dem sich die Häufigkeiten befinden.

Abbildung 2.3: Histogramme und Dichte-Plots

Die Häufigkeiten von numerischen Merkmalen lassen sich ebenfalls durch ein Säulendiagramm darstellen. Jedoch muss zuvor durch das Binning festgelegt werden, wie der gesamte Wertebereich aufzuteilen ist, um eine Gruppierung durchzuführen. Im Unterschied zu einem Häufigkeitsdiagramm mit kategorischen Daten ist zu erkennen, dass die Säulen im Diagramm ohne Lücke nacheinander mit ihren jeweiligen Häufigkeiten aufgetragen werden. Im Abschnitt 2.4.1 wird das Binning genauer erläutert. Eine Alternative für die Visualisierung von numerischen Merkmalen ist ein Dichte-Plot (density plot). Diese Art der Darstellung zeigt über den kompletten Wertebereich die Verteilung der Daten an.

Sogenannte Boxplots geben grafisch darüber Aufschluss, wie Daten eines Merkmals über einen Wertebereich verteilt sind. In einem Boxplot sind die folgenden Eigenschaften direkt zu entnehmen:

Median (2. Quartil, 50% Quartil)
1.Quartil (25% Quartil): Analog zum Median, Wert welche die Daten wie folgt teilt: 25% Datenreihe liegen darunter, 75% entsprechend darüber.
3.Quartil (75% Quartil): Analog zum Median, Wert welche die Daten wie folgt teilt: 75% Datenreihe liegen darunter, 25% entsprechend darüber.
Interquartilsabstand (Interquartile Range IQR): Abstand zwischen 3. und 1. Quartil
Whiskers (unterer und oberer Whisker): Datenpunkt der noch innerhalb $1.5 * I Q R$ vom 1. oder 3. Quartils liegt. $W h i s k e r_{m i n} = Q 1 - 1.5 * I Q R$ , $W h i s k e r_{m a x} = Q 3 + 1.5 * I Q R$
Ausreiser: Datenpunkte die oberhalb von $W h i s k e r_{m a x}$ oder unterhalb von $W h i s k e r_{m i n}$ liegen

Abbildung 2.4: Boxplot des Iris Datensatz

Abbildung 2.5: Boxplot im Detail

Wie bereits im Abschnitt Korrelation & Kovarianz aufgezeigt, ist eine Gegenüberstellung von numerischen Merkmalen sinnvoll, um eine lineare Abhängigkeit festzustellen. Dies wird in der Regel mit Scatter-Plots, entsprechend der Abbildung 2.2 umgesetzt. Eine erweitere Visualisierungsmöglichkeit über den kompletten Datensatz bieten sogenannte Scatter oder Korrelationsmatrizen. Abbildung 2.6 zeigt hierzu ein Beispiel, in dem der Iris-Datensatz grafisch dargestellt wird. Je nach Merkmal (numerisch oder kategorisch) werden die entsprechenden Diagrammtypen gewählt und generiert. So befinden sich im unteren Bereich Scatter und Histogramm-Plots der jeweiligen Merkmale gegeneinander aufgestellt. Im oberen Bereich ist es möglich, die Korrelationen für die numerischen Merkmale zu entnehmen. Für die kategorischen Daten wird in diesem Fall ein Boxplot erzeugt. Die Diagonale zeigt für numerische Merkmale Dichte-Plots, um einen schnellen Überblick über die Verteilung zu erhalten. Für die kategorischen Daten wird ein einfaches Häufigkeitsdiagramm angelegt.

Abbildung 2.6: Fortgeschrittene Scatter-Korrelations-Matrix Iris-Datensatz (Pairplot)