Data-Mining – DatenanalyseExplorative Statistik und explorative Datenanalyse

Die explorative Statistik und die explorative Datenanalyse liefern wertvolle Informationen für die Strategieplanung und für Innovationen im Unternehmen. Dazu müssen die Daten aus unterschiedlichen Perspektiven analysiert werden. Mit Excel können Sie Zusammenhänge, Muster und Besonderheiten in Ihren Massendaten entdecken.

Mit explorativer Statistik Zusammenhänge entdecken

Bei der explorativen Datenanalyse wird versucht, unterschiedliche Fragestellungen mit dem Datensatz zu beantwortet. Oft sind diese Fragen vorher definiert durch das Ziel, das Sie mit der Analyse erreichen wollen. Sie werten dann mit den Methoden der explorativen Statistik die Daten genau in der Form aus, die für Ihre Fragestellung geeignet ist.

Manchmal lässt man sich aber auch „durch den Datensatz treiben“. Dann gehen Sie Ihrer Entdeckungslust nach und graben sich Frage für Frage tiefer in den Datensatz. Wie beim Goldschürfen können Sie dabei auf große Goldadern stoßen oder aber nach einer langen Suche ohne brauchbare Ergebnisse dastehen.

Vorgehen bei der explorativen Datenanalyse

Das Vorgehen bei explorativen Datenanalyse erfolgt immer nach dem gleichen Schema. Zuerst verschaffen Sie sich einen Überblick, sowohl in qualitativer als auch quantitativer Sicht. Dann formulieren Sie Annahmen oder Hypothesen und prüfen mit Ihrer Datenanalyse, inwiefern diese zutreffen oder verworfen werden müssen.

Qualitativer Überblick über die Daten

Das bedeutet, zuerst müssen Sie wissen, was für Daten Sie vor sich haben:

  • Wo kommen die Daten her?
  • Wie wurden sie erhoben?
  • In welchem Zeitraum wurden sie erhoben?
  • Welche Daten im Einzelnen wurden gesammelt?

Das sind die qualitativen Aspekte, für die Sie sowohl statistische Kenntnisse benötigen, um die Datenqualität beurteilen zu können, als auch Domänenwissen, um die Daten richtig interpretieren zu können.

Quantitativer Überblick über die Daten

Danach verschaffen Sie sich einen quantitativen Überblick:

  • Wie groß ist der Datensatz?
  • Gibt es fehlende Einträge?
  • Gibt es extreme Ausreißer?

Hypothesen formulieren

Wenn Sie dann ein erstes Gefühl für die Daten haben, fangen Sie an, Annahmen, Hypothesen oder Vermutungen aufzustellen und diese zu überprüfen. Hier fängt der kreative Teil des Data-Minings an. Sie können im Vorfeld nicht wissen, was jetzt auf Sie zukommt und Sie werden Ihr Domänenwissen nutzen, um Hypothesen anzupassen und neu aufzustellen.

Zahlen vorläufig analysieren

In der Explorationsphase graben Sie tatsächlich in Ihren Daten und ähnlich wie es in einer Mine dreckig ist, wird auch bei der explorativen Analyse nicht allzu viel Wert auf Schönheit gelegt. Das bedeutet, dass Sie Grafiken nicht mühevoll designen und feinschleifen oder alle Zahlen mit der gleichen Zahl an Nachkommastellen formatieren. Sie werden viele Grafiken und Zahlen erzeugen, viele davon sind nur für einen Augenblick interessant und einiges davon werden Sie auch gleich wieder verwerfen. Da lohnt es sich nicht, allzu viel Energie in schöne Visualisierungen zu stecken.

Methoden der explorativen Datenanalyse für den ersten Überblick – ein Beispiel

Für die Exploration wird ein Datensatz einer Marketing-Kampagne als Beispiel verwendet. Bei der Kampagne wurden potenzielle und bestehende Kunden angerufen mit dem Ziel, ihnen ein bestimmtes Produkt zu verkaufen. Sie haben den Datensatz von der Marketingagentur mit folgenden Spaltenüberschriften bekommen:

  • Alter
  • Beschäftigungsart
  • Familienstand
  • Ausbildung
  • Kontaktart (Wie wurden die Menschen angerufen?)
  • Tag
  • Monat
  • LDauer (Dauer des letzten Kontakts in Sekunden)
  • Kontakte (Wie häufig wurde der Kunde im Rahmen dieser laufenden Marketing-Kampagne angerufen?)
  • LTage (Vergangene Tage, seit der Kunde im Rahmen der vorherigen Marketing-Kampagne angerufen wurde)
  • LKontakt (Anzahl Kundenkontakte vor dieser Marketing-Kampagne)
  • LAbschluss (Ergebnis der vorherigen Marketing-Kampagne)
  • Abschluss (Wurde in dieser laufenden Marketing-Kampagne ein Abschluss erzielt?)

Diese Informationen werden üblicherweise in einem Code-Book zusammengefasst, in dem die Bedeutung der einzelnen Variablen (Spalten in der Excel-Tabelle) beschrieben ist. Je nach Umfang des Domänenwissen kann die Beschreibung mehr oder weniger lang ausfallen. Spätestens bei Codierungen von unterschiedlichen Ausprägungen mit numerischen Schlüsseln (zum Beispiel 00 für ledig, 01 für verheiratet, etc.) ist das Code-Book aber unerlässlich für eine Interpretation der Daten.

Wie Sie in einem Excel-Datensatz den Überblick bekommen

Einen Überblick über den Umfang der Daten können Sie sich in Excel sehr schnell und leicht verschaffen: Mit den Tastenkombinationen Strg + Cursor rechts (Windows) navigieren Sie an den rechten Rand der Tabelle, mit Strg + Cursor unten an den unteren Rand.

Voraussetzung ist allerdings, dass die Daten keine Löcher enthalten. Das können Sie ebenso schnell überprüfen: Drücken Sie entsprechende Tastenkombination noch einmal, dann sollten Sie am maximalen Ende der Excel-Tabelle sein (Spalte XFD und Zeile 1.048.576). Achten Sie darauf, hier nicht aus Versehen eine Eingabe zu tätigen, da Excel ansonsten Ihre Tabelle auf diese Größe erweitert!

Die Marketing-Kampagne enthält im Beispieldatensatz 45.212 Zeilen und damit 45.211 Datensätze. Als Nächstes verschaffen Sie sich einen Überblick über den Wertebereich der Variablen.

Hinweis: Um die folgenden Auswertungen nachzuvollziehen, finden Sie die Excel-Datei mit den Daten und Auswertungen im Praxisteil dieses Abschnitts im Handbuch-Kapitel (siehe unten).

Numerische Variablen analysieren mit der Fünf-Punkte-Zusammenfassung

Alle numerischen Variablen des Datensatzes, zum Beispiel die Spalten für Alter, LDauer oder Kontakte, lassen sich mit den Kennzahlen aus der Fünf-Punkt-Zusammenfassung wie in Abbildung 8 beschreiben. Mehr zu den Kennzahlen der Fünf-Punkte Zusammenfassung finden Sie im vorigen Abschnitt dieses Handbuch-Kapitels.

Abbildung 8: Fünf-Punkt-Zusammenfassung der numerischen Variablen des Datensatzes

Erkenntnisse aus der Fünf-Punkte-Zusammenfassung

Aus dieser Zusammenfassung ergeben sich bereits erste Anhaltspunkte für weitere Analysen:

  • Ist das maximale Alter der Kunden mit 95 Jahren nachvollziehbar?
  • Ist eine maximale Anrufdauer von 4.918 Sekunden (rund 82 Minuten) plausibel?
  • Sind 63 Kontakte innerhalb einer Kampagne mit dem gleichen Kunden realistisch?

Es lohnt sich immer, die Extremwerte anzuschauen. Insbesondere, wenn Sie sie bereits mit Domänenwissen bewerten können, ob ein Wert überhaupt möglich, glaubwürdig, nachvollziehbar, realistisch oder plausibel ist. Möglich ist, dass es bei der Datenerfassung zu Fehlern gekommen ist. Diese können Sie so erkennen und behandeln.

Histogramm erstellen und auswerten

Um einen besseren Überblick über die Daten zu bekommen, können Sie ein Histogramm oder ein Boxplot erstellen. In Abbildung 9 ist ein Histogramm für die Dauer eines Kundengesprächs aus der laufenden Marketing-Aktion (LDauer) dargestellt. Zusätzlich ist die sogenannte Pareto-Linie eingezeichnet. Sie zeigt die summierte relative Häufigkeit und gibt an, wie viel Prozent aller Anrufe kleiner oder gleich der jeweiligen LDauer sind. Die gestrichelte senkrechte rote Linie zeigt, bei welcher Dauer 80 Prozent der Werte erreicht sind – in anderen Worten: 80 Prozent der Anrufe waren kürzer als 375 Sekunden (6,25 Minuten).

Abbildung 9: Histogramm für die Dauer des Kundengesprächs (LDauer) mit Pareto-Kurve

Boxplot erstellen und auswerten

Doch wie kommen dann der hohe Durchschnitt und das extreme Maximum zustande? Das können Sie aus dem Boxplot ablesen (siehe Abbildung 10). Hier sehen Sie den Großteil der kurzen Anrufe bis zum oberen Ende der Box (entspricht dem 3. Quartil, also 75 Prozent aller Anrufe) und darüber einige Ausreißer bis zum Maximum von fast 5.000 Sekunden.

Es handelt sich also sehr wahrscheinlich nicht um einzelne Datenfehler, sondern es gibt tatsächlich Telefonate, die so lange dauern. Möchten Sie wissen, was dahintersteckt, müssten Sie tiefer in den Daten graben und herausfinden, welche Telefonate das waren:

  • Gibt es ein Muster, das diese langen Anrufe verbindet?
  • War das immer der gleiche Mitarbeiter?
  • War das immer die gleiche Kundengruppe?

Sie merken, wie bei der explorativen Datenanalyse eine Frage zur nächsten führt.

Abbildung 10: Boxplot für die Dauer des Kundengesprächs (LDauer)

Kategorische Variablen mit nominaler Skala analysieren

Bei kategorischen Variablen mit einer nominalen Skala können Sie keine Histogramme oder Boxplots erstellen. Denn Sie können mit Angaben wie „Management“ oder „verheiratet“ keine Mittelwerte oder Mediane berechnen.

Hier benötigen Sie ein anderes Vorgehen, um sich einen Überblick zu verschaffen. Am schnellsten und einfachsten geht mit den Autofiltern von Excel:

  • Bewegen Sie den Cursor in die erste Zeile der Tabelle mit Ihren Daten.
  • Aktivieren Sie im Menü Daten den Menüpunkt Sortieren und FilternFiltern (siehe Abbildung 11).

Ihre Tabelle mit den Datensätzen erhält dann in Zeile 1 eine Tabellenüberschrift mit einem kleinen Symbol (Dreieck am rechten Rand der Spaltenüberschrift) für das Aufklappen des Filters. Wenn Sie das Symbol anklicken, erscheint das Kontext-Menü wie in Abbildung 11 (je nachdem, welche Excel-Version Sie nutzen, kann die Darstellung und die Bezeichnung abweichen).

Abbildung 11: Menüpunkt Filter im Menü Daten am Beispiel der Variable Beschäftigungsart

Muster und Besonderheiten im Datensatz erkennen

Nun möchten Sie zum Beispiel herausfinden, wie sich die Anrufe auf die unterschiedlichen Beschäftigungsarten verteilen.

Klappen Sie den Filter auf, sehen Sie alle vorkommenden Eintragungen der Spalte in der Auswahl. Leider können Sie diese Information so jedoch nicht weiterbearbeiten. Dazu benötigen Sie eine Liste der vorhandenen Ausprägungen für die kategorische Variable.

Kopieren Sie dazu zuerst die gewünschte Spalte B Beschäftigungsart mit Überschrift in ein neues Tabellenblatt, am besten in Spalte A. Markieren Sie die komplette Spalte (jetzt A1:A45122) und wählen aus dem Menü Daten – Datentools – die Funktion Duplikate entfernen. Es erscheint ein Dialogfeld, in dem Sie festlegen, in welchem Bereich Sie Duplikate entfernen wollen (siehe Abbildung 12).

Abbildung 12: Duplikate aus dem Wertebereich entfernen

Häufigkeiten ermitteln

Nach einem Klick auf OK bleibt jeder Eintrag aus der Spalte genau einmal übrig. Mit dieser kurzen Liste können Sie sich nun die Verteilung über die Beschäftigungsarten ansehen. Dazu verwenden Sie in Excel die Funktion ZÄHLENWENN(). Sie zählt, wie oft ein Parameter in einem bestimmten Bereich vorkommt.

Für eine übersichtliche Darstellung können Sie die Werte noch absteigend sortieren und dann in einem Balkendiagramm anzeigen lassen. Das Ergebnis sehen Sie in Abbildung 13. Im Beispiel des Datensatzes aus dem Marketing können Sie erkennen, wie häufig mit einer Person telefoniert wurde, die als Beamter beschäftigt ist (Zeile 10 in Abbildung 13). Die Excel-Formel in der Zelle B10 würde lauten:

=ZÄHLENWENN(Datensatz!B2:B45212;A10)

Der Bereich Datensatz!B2:B45212 bezieht sich auf die Tabelle, in der die originären Daten enthalten sind (siehe Abbildung 11).

Außerdem sind in Abbildung 13 die jeweiligen Häufigkeiten für die Beschäftigungsart als Prozent-Anteil an allen Kontakten berechnet (Spalte C).

Abbildung 13: Verteilung der Anrufe über die Beschäftigungsarten (Anzahl Anrufe je Beschäftigungsart)

Daten verknüpfen und Zusammenhänge erkennen – ein Beispiel

Nachdem Sie sich einen ersten Überblick über den Datensatz verschafft haben, gehen Sie nun einen Schritt weiter und bringen einzelne Variablen zueinander in Beziehung. Sie möchten zum Beispiel wissen, wie sich die Anrufdauer LDauer über die einzelnen Beschäftigungsarten verteilt. Mögliche Fragen sind:

  • Gibt es Beschäftigungsgruppen, die generell längere Gespräche führen?
  • Oder hat eine Gruppe besonders wenig Zeit?

Dazu müssen Sie die Variable LDauer in Abhängigkeit von der Variable Beschäftigungsart filtern. Das können Sie entweder manuell mit Filtern machen und jede gefilterte Tabelle separat analysieren oder Sie bauen die Daten etwas um. Dazu kopieren Sie die gewünschten Spalten Beschäftigungsart und LDauer in ein leeres Tabellenblatt in die Spalten A und B (siehe Abbildung 14).

Abbildung 14: Beschäftigungsart und LDauer (Auszug)

Nun benötigen Sie die unterschiedlichen Beschäftigungsarten in Spalte A als Spaltenüberschrift ab Spalte C. Eine Liste der einzelnen Beschäftigungsarten haben Sie bereits für die Analyse der kategorischen Variablen angelegt, diese Liste müssen Sie nur noch kopieren und um 90 Grad drehen.

Das geht am einfachsten, indem Sie die Liste kopieren und mit der rechten Maustaste in das neue Tabellenblatt in die Zelle C1 klicken. Wählen Sie aus dem Kontextmenü Inhalte einfügen… und markieren Dialogfeld die Checkbox bei Transponieren. Excel fügt Ihnen die kopierte Liste nun um 90 Grad gedreht ein.

Als Nächstes müssen Sie die LDauer der jeweiligen Spalte der Beschäftigungsart zuordnen. Das funktioniert am einfachsten mit der WENN()-Funktion. Prüfen Sie einfach in jeder Spalte, ob der Datensatz zu der jeweiligen Beschäftigungsart gehört, ob also der Spaltenkopf gleich dem Eintrag in Spalte A ist. Wenn ja, soll in der Spalte die LDauer angezeigt werden – ansonsten soll nichts passieren. Excel füllt das Feld dann automatisch mit FALSCH. Die Formel lautet für die Zelle C2:

=WENN($A2=C$1;$B2)

Diese Formel können Sie nun nach rechts und dann bis ganz nach unten erweitern, sodass Sie eine Tabelle wie in Abbildung 15 bekommen.

Abbildung 15: Aufteilung der LDauer nach Beschäftigungsart (Auszug)

Was haben Sie nun erreicht? Durch die Sortierung der LDauern in die jeweiligen Spalten können Sie nun wieder eine Fünf-Punkte-Zusammenfassungen für jede Spalte erstellen und haben so die LDauer in Abhängigkeit der Beschäftigungsart ermittelt. Darum ist es auch wichtig, bei der WENN()-Funktion kein zweites Argument anzugeben, da Sie ansonsten eventuell die Berechnung verfälschen würden. Das Ergebnis sehen Sie in Abbildung 16.

Abbildung 16: Fünf-Punkte-Zusammenfassungen für die unterschiedlichen Beschäftigungsarten

Erkenntnisse aus der Datenanalyse

Mit den Kennzahlen der Fünf-Punkt-Zusammenfassung können Sie sehen, dass der Median bei „arbeitslos“ und „Ruhestand“ deutlich über den Medianen der anderen Beschäftigungsarten liegt und auch über dem Median des gesamten Datensatzes. Das wird besser sichtbar, wenn Sie ein Säulen-Diagramm zu den einzelnen Medianwerten erstellen (siehe Abbildung 17); um die Unterschiede besser sichtbar zu machen, ist der Skalenbereich der y-Achse angepasst.

Abbildung 17: Vergleich der Mediane für die einzelnen Beschäftigungsarten

Was die Gründe für dieses Ergebnis sind – dafür brauchen Sie Domänenwissen. Sie müssten durch weitere Analysen oder mithilfe anderer Studien herausfinden, welche Ursachen dieses Phänomen haben könnte, das Sie statistisch entdeckt haben. Ob die Vermutung korrekt ist, dass Arbeitslose und Ruheständler mehr Zeit haben und daher die Telefonate länger sind, lässt sich mit diesen Daten nicht sagen.

Weitergehende statistische Analysen – jenseits von Excel

Damit gerät man an die Grenzen von Excel. Erstens ist der Datensatz mit über 45.000 Zeilen schon recht groß, sodass Diagramme nicht mehr ohne Weiteres erstellt werden können. Zweitens sind die Möglichkeiten einer mehrdimensionalen Datenanalyse in Excel begrenzt, wie Sie bei der LDauer nach Beschäftigungsart gesehen haben. Es sind einige Zwischenschritte notwendig, bis die Daten mithilfe einfacher Formeln ausgewertet werden können. Möchten Sie nun diese Analyse weiter unterteilen nach erfolgreichem Abschluss oder nicht, müssen Sie noch mehr Kunstgriffe und Umwege in Excel gehen.

Für weitergehende statistische Analysen verwendet man spezielle Software wie zum Beispiel die Programmiersprache R, die in Data-Science-Kreisen verbreitet ist. Sie benötigt zwar etwas Einarbeitung, aber wenn Sie sich intensiver mit dem Thema Datenauswertung auseinandersetzen wollen, lohnt sich der Aufwand.

In R können Sie große Datensätze schnell und mühelos analysieren. So werden etwa für das Ergebnis in Abbildung 18 nur drei Zeilen Befehlscode in R benötigt, um Boxplots der LDauer für die einzelnen Beschäftigungsarten zu erstellen. Zusätzlich wird als weitere Variable der Abschlusserfolg betrachtet. Es ist deutlich zu sehen, dass für Abschlüsse längere Telefonate geführt wurden; die roten Boxplots liegen weiter oben im Diagramm.

© Florian Bliefert – www.business-wissen.de
Abbildung 18: LDauer in Abhängigkeit von Beschäftigungsart und Abschluss

Eventuell ergeben sich viele weitere Fragen aus dieser Grafik, denen sich nachzugehen lohnt. Zum Beispiel: Warum hat ein Techniker 4.920 Sekunden (82 Minuten) telefoniert und dann nicht abgeschlossen? (der Ausreißer rechts oben)

Das ist eine der Gefahren, wenn Sie sich „durch den Datensatz treiben lassen“ – Sie kommen nicht zu einem Ende. Hier müssen Sie sich selbst eine Grenze setzen, zum Beispiel ein Zeitlimit, wie lange Sie sich mit dem Datensatz beschäftigen möchten. Gerade im Unternehmenskontext soll Ihre Arbeit einen Nutzen für das Unternehmen haben und mit Data-Mining wollen Sie Informationen für eine Entscheidungsfindung liefern.

Die nächsten Schritte im Data-Mining

Die vorgestellten Werkzeuge und Techniken sind nur ein Anfang in das Data-Mining. Damit können Sie bereits Sachverhalte und die dazugehörenden Datensätze analysieren, viele Fragen beantworten und Entscheidungen vorbereiten.

Sollten Sie dabei an Grenzen stoßen und umfangreichere Statistikkenntnisse benötigen oder spezialisierte Software, lassen Sie sich davon nicht aufhalten! Data-Mining ist keine Geheimwissenschaft, sondern die Kunst, Informationen in Daten zu finden und zur Entscheidungsfindung zu nutzen – und diese Kunst kann man lernen.

Praxis

Datenquellen identifizieren

Klären Sie, in welchen Bereichen Ihres Unternehmen Daten oder Massendaten vorliegen, die sich für eine explorative Analyse eignen. Verschaffen Sie sich einen Überblick über die Datensätze und die dort erfassten Daten im Hinblick auf:

  • aktueller Stand
  • Erhebung und Messung der Daten
  • Zeitraum, den die Daten umfassen
  • Größe des Datensatzes
  • Parameter oder Variablen, die im Datensatz vorliegen (die Daten im Einzelnen)

Fragestellungen klären

Klären Sie, welche Fragestellungen Ihres Unternehmens und der einzelnen Fachbereiche und welche Themen und Aspekte mithilfe dieser Daten beantwortet werden könnten. Beispiele sind Datenquellen, Datensätze und Daten zum:

  • Kundenverhalten
  • Marktentwicklung
  • Prozessqualität
  • Beschwerdemanagement
  • Qualitätsmanagement
  • Liquiditätsplanung
  • Störungen
  • Beschaffung
  • Lieferantenleistungen
  • Materialwirtschaft
  • Personalmanagement

Formulieren Sie für Ihre Fragestellungen und Themen einzelne Hypothesen, Annahmen oder spezielle Fragen, die Sie mithilfe der verfügbaren Daten beantworten wollen. Nutzen Sie dazu die folgende Vorlage.

Hypothesen prüfen, Daten analysieren, Fragen beantworten

Nutzen Sie die Methoden der deskriptiven Statistik, um sich einen Überblick über den Datensatz zu verschaffen. Dafür eignet sich im ersten Schritt insbesondere die Fünf-Punkte-Zusammenfassung, wie sie im vorigen Abschnitt des Handbuch-Kapitels erklärt wurde. Berechnen Sie für die numerischen Variablen in Ihrem Datensatz also:

  • Minimum
  • Maximum
  • Mitte - Median
  • 1. Quartil
  • 3. Quartil

Berechnen Sie außerdem den Mittelwert oder Durchschnitt für Ihren Datensatz. Erstellen Sie auch ein Histogramm und ein Boxplot für die Beschreibung Ihrer Daten.

Analysieren Sie die kategorischen Variablen des Datensatzes, indem Sie die Häufigkeit ihres Auftretens zählen.

Bilden Sie dann für die explorative Datenanalyse Verknüpfungen für Ihre Daten und die einzelnen Variablen. Gehen Sie dabei von Ihren Hypothesen aus. Erstellen Sie eine Matrix (Kreuztabelle) wie oben beschrieben.

Nutzen Sie als Muster oder Beispiel für Ihre Datenanalyse die folgende Excel-Vorlage mit den wichtigen Lageparametern, Histogramm, Boxplot und Pareto-Diagramm sowie für Häufigkeits-Diagramme für einzelnen Untergruppen des Datensatzes (Cluster-Analyse).

Prüfen Sie schließlich, inwiefern eine weitergehende Datenanalyse weitere Erkenntnisse und Antworten für Ihre unternehmerischen Entscheidungen liefern könnte. Klären Sie: Braucht es dafür andere Statistik-Tools oder weiterführendes Know-how zur Statistik?