Statistische Kennzahlen zur Datenbeschreibung

Für einen ersten groben Überblick verwendet die deskriptive Statistik eine Fünf-Punkte-Zusammenfassung, welche die wichtigsten Lageparameter darstellt. Mithilfe von Lageparametern wird die Verteilung der Datenpunkte beschrieben; „wie die Daten liegen“.

Die fünf Lageparameter der Fünf-Punkte-Zusammenfassung für einen Datensatz sind:

Minimalwert

Maximalwert

Mitte

erstes Quartil

drittes Quartil

Diese Lageparameter werden folgendermaßen ermittelt und mit Excel-Funktionen berechnet:

Minimalwert und Maximalwert

Für die Wartezeit des Kunden am Telefon zeigt die Analyse den Minimalwert 0 Minuten und den Maximalwert 92,37 Minuten. In Excel gibt es dafür die Funktionen MIN() und MAX(), die nur die Wartezeit des Datensatzes (Spalte B in der Tabelle) als Parameter benötigen.

Mitte der Verteilung

Der nächste Lageparameter beschreibt die Mitte der Verteilung. Dabei ist Vorsicht geboten, da es zwei unterschiedliche Arten der Mitte gibt:

arithmetisches Mittel, auch als Durchschnitt oder Mittelwert bezeichnet

Median

Der umgangssprachliche Durchschnitt als arithmetisches Mittel ist anfällig für Ausreißer, also für einzelne extreme Werte an den Enden der Verteilung.

Besonders deutlich wird das zum Beispiel bei Einkommensverteilungen. Wenn in einem kleinen Ort ein Milliardär wohnt, ist das Durchschnittseinkommen sehr hoch – obwohl nur eine Person extrem viel Einkommen erzielt und alle anderen vielleicht sogar sehr wenig.

Eine höhere Aussagekraft hat hier der Median, der den mittleren Wert einer Verteilung beschreibt. Mittlerer Wert bedeutet, dass die Hälfte der Werte darüber liegt und die andere Hälfte darunter. Der eine Milliardär würde also den Median nicht verschieben, da die Mitte der Einkommen sich nicht verändert.

Diese Unterscheidung gibt es in Excel auch. Die Funktion MITTELWERT() berechnet das arithmetische Mittel, die Funktion MEDIAN() entsprechend den Median.

Die Wartezeiten des Callcenters haben einen Mittelwert von 14,80 Minuten und einen Median von 12,56 Minuten. Aus der Differenz der Werte lässt sich schon erahnen, dass es wohl ein paar Ausreißer nach oben gibt, denn das arithmetische Mittel ist größer als der Median.

Quartile

Die zwei weiteren Kennzahlen zur Fünf-Punkte-Zusammenfassung sind das erste und das dritte Quartil. Der Name Quartil impliziert bereits eine Vierteilung des Datensatzes – und genau das ist es auch.

Das erste Quartil enthält 25 Prozent der Datenpunkte des Datensatzes, das dritte Quartil dementsprechend 75 Prozent. Prinzipiell könnte der Median auch als 50-Prozent-Quartil aufgefasst werden, diese Bezeichnung ist aber unüblich.

Für die Berechnung der Quartile bietet Excel eine passende Funktion: QUARTILE.INKL().

Bei der Auswahl der Formel ist Vorsicht geboten, Excel kennt sowohl QUARTILE.INKL() als auch QUARTILE.EXKL(). Beide Formeln unterscheiden sich etwas in Details der Berechnung, was im Normalfall aber keinen Unterschied im Ergebnis ausmacht.

Da jedoch die zwei bei Datenanalysen beliebten Programmiersprachen R und Python die Quartile nach der gleichen Formel wie QUARTILE.INKL() berechnen, sollten Sie diese verwenden.

Für den Beispieldatensatz aus dem Callcenter sind die Werte: 6,24 Minuten für das erste Quartil und 21,03 Minuten für das dritte. Das bedeutet, dass 25 Prozent der Anrufer weniger als 6,24 Minuten und 75 Prozent der Anrufer nicht länger als 21,03 Minuten warten.