2.2 Deskriptive Statistik

Durch besondere Parameter können in den zu untersuchenden Daten Merkmale genauer betrachtet und beschrieben werden. Der Lageparameter mit den Funktionen Mittelwert und Median stellt bei numerischen Attributen den Durchschnitt dar. Wie stark ein Attribut in seinem Wertebereich verteilt ist, zeigt der Streuungsparameter (Varianz und die Standardabweichung) auf. Die Merkmale zwischen zwei unterschiedlichen Attributen in einem Datensatz zeigen die Kovarianz und die Korrelation auf.

2.2.1 Mittelwert

Der Mittelwert oder das arithmetische Mittel eines Attributs wird gebildet, in dem man die einzelnen Ausprägungen aufsummiert und durch die Gesamtanzahl der Ausprägungen dividiert.

Als Beispiel wollen wir für das Attribute Alter mit den Werten aus der Tabelle 2.1 den Mittelwert bestimmen. Als Resultat erhalten wir das Ergebnis . Das arithmetische Mittel kann man als Schwerpunkt für das Attribut interpretieren. Es gilt:

Die Summe der Abweichungen vom Mittelwert ist gleich 0. Der Mittelwert ist sensitiv gegenüber Ausreißern. Wenn Fehler in der Datenerhebung bspw. durch Messfehler entstanden sind, so führt der Mittelwert zu einer fehlerhaften Aussage.

2.2.2 Median

Der Median ist ein robustes Lagemaß, d.h. der Median begrenzt den Einfluß von Ausreißern. Der Median befindet sich in der Mitte der Werte des Attributs. Die Hälfte der Daten liegt unterhalb und die andere Hälfte befindet sich oberhalb des Medians.

Um den Median zu berechnen, sortiert man die Merkmale eines Attributs in aufsteigender Folge:

Wendet man diese Regel auf die Beispieldaten aus der Tabelle 2.1 an, so erhält man die sortierte Folge . Es ergibt sich für den Median .

Eine weitere Variante des Mittelwerts, um die Auswirkungen von Ausreißer zu mildern, ist der getrimmte Mittelwert (Trimmed mean). Hierbei wird vor der Mittelwertsberechung eine festgelegte Anzahl an minimalen und maximalen Ausprägungen entfernt (bspw. die 10 kleinsten und höchsten Werte)

2.2.3 Streuungsparameter

Weitere wichtige Parameter zur Beurteilung von Attributen sind Streuungsparameter. Diese geben an, wie stark der Wertebereich eines Attributes variiert. Die Varianz und die Standardabweichung sind in der Statistik die bekanntesten Streuungsparameter. Sie basieren auf der quadratischen Abweichung der einzelnen Merkmalsausprägungen. Sie werden wie folgt berechnet:

Für die Varianz aus unseren Beispieldaten (Tabelle 2.1) erhalten wir für das Merkmal Alter das folgende Ergebnis . Da jedoch dieser Wert aufgrund seiner Einheit weniger aussagekräftig ist, wählt man aufgrund dessen die Standardabweichung

Degrees of Freedom, and n or n – 1?

In statistics books, there is always some discussion of why we have in the denominator in the variance formula, instead of n, leading into the concept of degrees of freedom. This distinction is not important since is generally large enough that it won’t make much difference whether you divide by or . But in case you are interested, here is the story. It is based on the premise that you want to make estimates about a population, based on a sample.

If you use the intuitive denominator of in the variance formula, you will underestimate the true value of the variance and the standard deviation in the population. This is referred to as a biased estimate. However, if you divide by instead of , the variance becomes an unbiased estimate.

To fully explain why using leads to a biased estimate involves the notion of degrees of freedom, which takes into account the number of constraints in computing an estimate. In this case, there are degrees of freedom since there is one constraint: the standard deviation depends on calculating the sample mean. For many problems, data scientists do not need to worry about degrees of freedom, but there are cases where the concept is important Source

Histogramm mit unterschiedlicher Lage und Streuung

Abbildung 2.1: Histogramm mit unterschiedlicher Lage und Streuung

2.2.4 Kovarianz & Korrelation

Für die Gegenüberdarstellung von unterschiedlichen Merkmalen in einem Datensatz existieren die Koeffizienten für Kovarianz und Korrelation. Die Kovarianz spielt hierbei eine untergeordnete Rolle, da sie nur die Richtung des linearen Zusammenhangs aufzeigt (positiver Koeffizient positiver Zusammenhang, negativer Koeffizient negativer Zusammenhang) und nicht die Stärke. Zudem existieren auch keine unteren und oberen Grenzen und im Allgemeinen ist kein Vergleich mit anderen Kovarianz-Koeffizienten möglich.

Ein positiver linearer Zusammenhang von zwei Merkmalen besteht, wenn kleine Werte von Merkmal mit kleinen Werten von und große Werte von Merkmal mit großen Werten von einhergehen. Ein Beispiel von unterschiedlichen Zusammenhängen zeigt die Abbildung 2.2.

Der Korrelationskoeffizient (Pearson-Korrelationskoeffizient) gibt nicht nur Aufschluss über die Richtung des linearen Zusammenhangs, sondern auch über dessen Stärke. Hierbei bewegt sich der Koeffizient im Wertebereich . Ein starker positiver Zusammenhang zwischen zwei Merkmalen bewegt sich hierbei im Bereich . Analog hierzu zeigt ein Koeffizient im Wertebereich einen starken negativen Zusammenhang. Koeffizienten um den Bereich spiegeln keinen linearen Zusammenhang der betrachteten Merkmale wider. Einen schnellen Einblick in die Daten erlauben sogenannte Korrelationsmatrizen, in denen die Korrelation von jeder Kombination aus zwei Merkmalen betrachtet wird.

Scatterplot mit unterschiedlichen Korrelationskoeffizienten

Abbildung 2.2: Scatterplot mit unterschiedlichen Korrelationskoeffizienten

  • Scheinkorrelation: Zwei Merkmale und sind von einem unbeobachteten dritten Merkmal abhängig.
  • Scheinkorrelation: Keine logische Verbindung zwischen zwei Merkmalen. Amüsante Scheinkorrelationen sind auf der Webseite Spurious Correlations gelistet.