Mit explorativer Datenanalyse Zusammenhänge entdecken

Bei der explorativen Datenanalyse wird versucht, unterschiedliche Fragestellungen mit dem Datensatz zu beantworten. Oft sind diese Fragen vorher definiert durch das Ziel, das Sie mit der Analyse erreichen wollen.

Sie werten dann mit den Methoden der explorativen Statistik die Daten genau in der Form aus, die für Ihre Fragestellung geeignet ist.

Manchmal lässt man sich aber auch „durch den Datensatz treiben“. Dann gehen Sie Ihrer Entdeckungslust nach und graben sich Frage für Frage tiefer in den Datensatz. Wie beim Goldschürfen können Sie dabei auf große Goldadern stoßen oder aber nach einer langen Suche ohne brauchbare Ergebnisse dastehen.

Vorgehen bei der explorativen Datenanalyse

Das Vorgehen bei explorativer Datenanalyse erfolgt immer nach dem gleichen Schema. Zuerst verschaffen Sie sich einen Überblick, sowohl in qualitativer als auch quantitativer Hinsicht. Dann formulieren Sie Annahmen oder Hypothesen und prüfen mit Ihrer Datenanalyse, inwiefern diese zutreffen oder verworfen werden müssen.

Qualitativer Überblick über die Daten

Das bedeutet, zuerst müssen Sie wissen, was für Daten Sie vor sich haben:

  • Wo kommen die Daten her?
  • Wie wurden sie erhoben?
  • In welchem Zeitraum wurden sie erhoben?
  • Welche Daten im Einzelnen wurden gesammelt?

Das sind die qualitativen Aspekte, für die Sie sowohl statistische Kenntnisse benötigen, um die Datenqualität beurteilen zu können, als auch Domänenwissen, um die Daten richtig interpretieren zu können.

Quantitativer Überblick über die Daten

Danach verschaffen Sie sich einen quantitativen Überblick:

  • Wie groß ist der Datensatz?
  • Gibt es fehlende Einträge?
  • Gibt es extreme Ausreißer?

Hypothesen formulieren

Wenn Sie dann ein erstes Gefühl für die Daten haben, fangen Sie an, Annahmen, Hypothesen oder Vermutungen aufzustellen und diese zu überprüfen.

Hier beginnt der kreative Teil des Data-Minings. Sie können im Vorfeld nicht wissen, was jetzt auf Sie zukommt, und Sie werden Ihr Domänenwissen nutzen, um Hypothesen anzupassen und neu aufzustellen.

Zahlen vorläufig analysieren

In der Explorationsphase graben Sie tatsächlich in Ihren Daten. Und ähnlich wie es in einer Mine dreckig ist, wird auch bei der explorativen Analyse nicht allzu viel Wert auf Schönheit gelegt.

Das bedeutet, dass Sie Grafiken nicht mühevoll designen und feinschleifen oder alle Zahlen mit der gleichen Zahl an Nachkommastellen formatieren. Sie werden viele Grafiken und Zahlen erzeugen, viele davon sind nur für einen Augenblick interessant und einiges davon werden Sie auch gleich wieder verwerfen.

Da lohnt es sich nicht, allzu viel Energie in schöne Visualisierungen zu stecken.

Methoden der explorativen Datenanalyse für den ersten Überblick – ein Beispiel

Für die Exploration wird ein Datensatz einer Marketing-Kampagne als Beispiel verwendet. Bei der Kampagne wurden potenzielle und bestehende Kunden angerufen mit dem Ziel, ihnen ein bestimmtes Produkt zu verkaufen.

Sie haben den Datensatz von der Marketingagentur mit folgenden Spaltenüberschriften bekommen:

  • Alter
  • Beschäftigungsart
  • Familienstand
  • Ausbildung
  • Kontaktart (Wie wurden die Menschen angerufen?)
  • Tag (des Anrufs)
  • Monat (des Anrufs)
  • LDauer (Dauer des letzten Kontakts in Sekunden)
  • Kontakte (Wie häufig wurde der Kunde im Rahmen dieser laufenden Marketing-Kampagne angerufen?)
  • LTage (Vergangene Tage, seit der Kunde im Rahmen der vorherigen Marketing-Kampagne angerufen wurde)
  • LKontakt (Anzahl Kundenkontakte vor dieser Marketing-Kampagne)
  • LAbschluss (Ergebnis der vorherigen Marketing-Kampagne)
  • Abschluss (Wurde in dieser laufenden Marketing-Kampagne ein Abschluss erzielt?)

Diese Informationen werden üblicherweise in einem Code-Book zusammengefasst, in dem die Bedeutung der einzelnen Variablen (Spalten in der Excel-Tabelle) beschrieben ist. Je nach Umfang des Domänenwissens kann die Beschreibung dazu mehr oder weniger lang ausfallen.

Spätestens bei Codierungen von unterschiedlichen Ausprägungen mit numerischen Schlüsseln (zum Beispiel 00 für ledig, 01 für verheiratet etc.) ist das Code-Book aber unerlässlich für eine Interpretation der Daten.

Wie Sie in einem Excel-Datensatz den Überblick bekommen

Einen Überblick über den Umfang der Daten können Sie sich in Excel sehr schnell und leicht verschaffen: Mit den Tastenkombinationen Strg + Cursor rechts (Windows) navigieren Sie an den rechten Rand der Tabelle, mit Strg + Cursor unten an den unteren Rand. 

Voraussetzung ist allerdings, dass die Daten keine Löcher enthalten. Das können Sie schnell überprüfen: Drücken Sie die entsprechende Tastenkombination noch einmal, dann sollten Sie am maximalen Ende der Excel-Tabelle sein (Spalte XFD und Zeile 1.048.576). Wenn nicht, haben Sie weitere Datensätze entdeckt.

Die Marketing-Kampagne enthält im Beispieldatensatz 45.212 Zeilen und damit 45.211 Datensätze.

Hinweis: Um die folgenden Auswertungen nachzuvollziehen, finden Sie die Excel-Datei mit den Daten und Auswertungen im Praxisteil unten.

Numerische Variablen analysieren mit der Fünf-Punkte-Zusammenfassung

Als Nächstes verschaffen Sie sich einen Überblick über den Wertebereich der Variablen.

Alle numerischen Variablen des Datensatzes, zum Beispiel die Spalten für Alter, LDauer oder Kontakte, lassen sich mit den Kennzahlen aus der Fünf-Punkt-Zusammenfassung wie in der folgenden Abbildung beschreiben.

Fünf-Punkt-Zusammenfassung der numerischen Variablen des Datensatzes

Erkenntnisse aus der Fünf-Punkte-Zusammenfassung

Aus dieser Zusammenfassung ergeben sich bereits erste Anhaltspunkte für weitere Analysen. Schauen Sie sich beispielsweise die Ergebnisse zum jeweils maximalen Wert (Maximum) an:

  • Ist das maximale Alter der Kunden mit 95 Jahren nachvollziehbar?
  • Ist eine maximale Anrufdauer von 4.918 Sekunden (rund 82 Minuten) plausibel?
  • Sind 63 Kontakte innerhalb einer Kampagne mit dem gleichen Kunden realistisch?

Es lohnt sich immer, die Extremwerte anzuschauen. Insbesondere, wenn Sie sie bereits mit Domänenwissen bewerten können, ob ein Wert überhaupt möglich, glaubwürdig, nachvollziehbar, realistisch oder plausibel ist.

Möglich ist, dass es bei der Datenerfassung zu Fehlern gekommen ist. Diese können Sie so erkennen und behandeln.

Histogramm erstellen und auswerten

Um einen besseren Überblick über die Daten zu bekommen, können Sie ein Histogramm oder ein Boxplot erstellen. In der folgenden Abbildung ist ein Histogramm für die Dauer eines Kundengesprächs aus der laufenden Marketing-Aktion (LDauer) dargestellt.

Zusätzlich ist die sogenannte Pareto-Linie eingezeichnet. Sie zeigt die summierte relative Häufigkeit und gibt an, wie viel Prozent aller Anrufe kleiner oder gleich der jeweiligen LDauer sind.

Die gestrichelte senkrechte rote Linie zeigt, bei welcher Dauer 80 Prozent der Werte erreicht sind – in anderen Worten: 80 Prozent der Anrufe waren kürzer als 375 Sekunden (6,25 Minuten).

Histogramm für die Dauer des Kundengesprächs (LDauer) mit Pareto-Kurve

Boxplot erstellen und auswerten

Doch wie kommen dann der hohe Durchschnitt und das extreme Maximum zustande? Das können Sie aus dem Boxplot ablesen (siehe folgende Abbildung).

Hier sehen Sie den Großteil der kurzen Anrufe bis zum oberen Ende der Box (entspricht dem 3. Quartil, also 75 Prozent aller Anrufe) und darüber einige Ausreißer bis zum Maximum von fast 5.000 Sekunden.

Es handelt sich also sehr wahrscheinlich nicht um einzelne Datenfehler, sondern es gibt tatsächlich Telefonate, die so lange dauern. Möchten Sie wissen, was dahintersteckt, müssten Sie tiefer in den Daten graben und herausfinden, welche Telefonate das waren:

  • Gibt es ein Muster, das diese langen Anrufe verbindet?
  • War das immer der gleiche Mitarbeiter?
  • War das immer die gleiche Kundengruppe?

Sie merken, wie bei der explorativen Datenanalyse eine Frage zur nächsten führt.

Boxplot für die Dauer des Kundengesprächs (LDauer)

Kategorische Variablen mit nominaler Skala analysieren

Bei kategorischen Variablen mit einer nominalen Skala können Sie keine Histogramme oder Boxplots erstellen. Denn Sie können mit Angaben wie „Management“ oder „verheiratet“ keine Mittelwerte oder Mediane berechnen.

Hier benötigen Sie ein anderes Vorgehen, um sich einen Überblick zu verschaffen. Am schnellsten und einfachsten geht es mit den Autofiltern von Excel:

  • Bewegen Sie den Cursor in die erste Zeile der Tabelle mit Ihren Daten.
  • Wählen Sie im Menüband Daten > Sortieren und Filtern > Filtern (siehe folgende Abbildung).

Ihre Tabelle mit den Datensätzen erhält dann in Zeile 1 eine Tabellenüberschrift mit einem kleinen Symbol (Dreieck am rechten Rand der Spaltenüberschrift) für das Aufklappen des Filters. Wenn Sie das Symbol anklicken, erscheint das Kontextmenü wie in der Abbildung.

Menüpunkt Filter im Menü Daten am Beispiel der Variable Beschäftigungsart

Muster und Besonderheiten im Datensatz erkennen

Nun möchten Sie zum Beispiel herausfinden, wie sich die Anrufe auf die unterschiedlichen Beschäftigungsarten verteilen.

Klappen Sie den Filter auf, sehen Sie alle vorkommenden Eintragungen der Spalte in der Auswahl. Leider können Sie diese Information so jedoch nicht weiterbearbeiten. Dazu benötigen Sie eine Liste der vorhandenen Ausprägungen für die kategorische Variable.

  • Kopieren Sie dazu zuerst die gewünschte Spalte B Beschäftigungsart mit Überschrift in ein neues Tabellenblatt, am besten in Spalte A.
  • Markieren Sie die komplette Spalte (jetzt A1:A45122) und wählen Sie aus dem Menüband Daten > Datentools > Duplikate entfernen.

Es erscheint ein Dialogfeld, in dem Sie festlegen, in welchem Bereich Sie Duplikate entfernen wollen (siehe folgende Abbildung).

Duplikate aus dem Wertebereich entfernen

Alternativ können Sie auch die Array-Funktion EINDEUTIG() verwenden. Für das Beispiel geben Sie in einem neuen Tabellenblatt in Zelle A1 ein:

=EINDEUTIG(Datensatz!B1:B45212;FALSCH;FALSCH)

In der ersten Zeile wird dabei die Spaltenüberschrift übernommen: Beschäftigungsart.

Häufigkeiten ermitteln

Nach einem Klick auf OK bleibt jeder Eintrag aus der Spalte genau einmal übrig. Mit dieser kurzen Liste können Sie sich nun die Verteilung über die Beschäftigungsarten ansehen.

Dazu verwenden Sie in Excel die Funktion ZÄHLENWENN(). Sie zählt, wie oft ein Parameter in einem bestimmten Bereich vorkommt.

Für eine übersichtliche Darstellung können Sie die Werte noch absteigend sortieren und dann in einem Balkendiagramm anzeigen lassen. Das Ergebnis sehen Sie in der folgenden Abbildung.

Verteilung der Anrufe über die Beschäftigungsarten (Anzahl Anrufe je Beschäftigungsart)

Im Beispiel des Datensatzes aus dem Marketing können Sie erkennen, wie häufig mit einer Person telefoniert wurde, die als Beamter beschäftigt ist (Zeile 10 in der Abbildung).

Die Excel-Formel in der Zelle B10 würde lauten:

=ZÄHLENWENN(Datensatz!B2:B45212;A10)

Der Bereich Datensatz!B2:B45212 bezieht sich auf die Tabelle, in der die originären Daten enthalten sind.

Außerdem sind die jeweiligen Häufigkeiten für die Beschäftigungsart als Prozentanteil an allen Kontakten berechnet (Spalte C).

Daten verknüpfen und Zusammenhänge erkennen – ein Beispiel

Nachdem Sie sich einen ersten Überblick über den Datensatz verschafft haben, gehen Sie nun einen Schritt weiter und bringen einzelne Variablen zueinander in Beziehung. Sie möchten zum Beispiel wissen, wie sich die Anrufdauer LDauer über die einzelnen Beschäftigungsarten verteilt.

Mögliche Fragen sind:

  • Gibt es Beschäftigungsgruppen, die generell längere Gespräche führen?
  • Oder hat eine Gruppe besonders wenig Zeit?

Dazu müssen Sie die Variable LDauer in Abhängigkeit von der Variable Beschäftigungsart filtern.

Das können Sie entweder manuell mit Filtern machen und jede gefilterte Tabelle separat analysieren oder Sie bauen die Daten etwas um. Dazu kopieren Sie die gewünschten Spalten Beschäftigungsart und LDauer in ein leeres Tabellenblatt in die Spalten A und B (siehe folgende Abbildung).

Beschäftigungsart und LDauer (Auszug)

Datenmatrix erstellen

Nun benötigen Sie die unterschiedlichen Beschäftigungsarten in Spalte A als Spaltenüberschrift ab Spalte C. Eine Liste der einzelnen Beschäftigungsarten haben Sie bereits für die Analyse der kategorischen Variablen angelegt, diese Liste müssen Sie nur noch kopieren und um 90 Grad drehen.

Das geht, indem Sie die Liste mit den unterschiedlichen Beschäftigungsarten kopieren und dann mit der rechten Maustaste im neuen Tabellenblatt in die Zelle C1 klicken.

Wählen Sie aus dem Kontextmenü Inhalte einfügen… und markieren im Dialogfeld die Checkbox bei Transponieren. Excel fügt Ihnen die kopierte Liste dann um 90 Grad gedreht ein.

Alternative: Sie nutzen die Array-Funktion MTRANS() in Excel und geben in Zelle C1 ein:

=MTRANS(A2:A13)

Werte in Matrix eintragen

Als Nächstes müssen Sie die LDauer der jeweiligen Spalte der Beschäftigungsart zuordnen. Das funktioniert am einfachsten mit der WENN()-Funktion.

Prüfen Sie in jeder Spalte, ob der Datensatz zu der jeweiligen Beschäftigungsart gehört, ob also der Spaltenkopf gleich dem Eintrag in Spalte A ist. Wenn ja, soll in der Spalte die LDauer angezeigt werden – ansonsten soll nichts passieren. Excel füllt das Feld dann automatisch mit FALSCH.

Die Formel lautet für die Zelle C2:

=WENN($A2=C$1;$B2)

Diese Formel können Sie nun nach rechts und dann bis ganz nach unten erweitern, sodass Sie eine Tabelle wie in der folgenden Abbildung bekommen. Achten Sie dabei in der Formel darauf, dass Sie die Bezüge ($-Zeichen) an der richtigen Position haben.

Aufteilung der LDauer nach Beschäftigungsart (Auszug)

Matrix auswerten nach Beschäftigungsart und LDauer

Was haben Sie nun erreicht?

Durch die Sortierung der LDauern in die jeweiligen Spalten können Sie wieder eine Fünf-Punkte-Zusammenfassungen für jede einzelne Spalte (die unterschiedlichen Beschäftigungsarten) erstellen. Sie analysieren so die LDauer (Gesprächsdauer) in Abhängigkeit von der Beschäftigungsart.

Darum ist es auch wichtig, bei der WENN()-Funktion kein zweites Argument anzugeben, da Sie ansonsten eventuell die Berechnung verfälschen würden. Das Ergebnis sehen Sie in der folgenden Abbildung.

Fünf-Punkte-Zusammenfassungen für die unterschiedlichen Beschäftigungsarten

Erkenntnisse aus der Datenanalyse

Mit den Kennzahlen der Fünf-Punkt-Zusammenfassung können Sie sehen, dass der Median bei „arbeitslos“ und „Ruhestand“ deutlich über den Medianen der anderen Beschäftigungsarten liegt und auch über dem Median des gesamten Datensatzes.

Das wird besser sichtbar, wenn Sie ein Balken-Diagramm zu den einzelnen Medianwerten erstellen (siehe folgende Abbildung); um die Unterschiede besser sichtbar zu machen, ist der Skalenbereich der y-Achse angepasst.

Vergleich der Mediane für die einzelnen Beschäftigungsarten

Was die Gründe für dieses Ergebnis sind – dafür brauchen Sie Domänenwissen. Sie müssten durch weitere Analysen oder mithilfe anderer Studien herausfinden, welche Ursachen dieses Phänomen haben könnte, das Sie statistisch entdeckt haben.

Ob die Vermutung korrekt ist, dass Arbeitslose und Ruheständler mehr Zeit haben und deshalb die Telefonate länger sind, lässt sich mit diesen Daten nicht sagen.

Weitergehende statistische Analysen – jenseits von Excel

Damit gerät man an die Grenzen von Excel. Die Möglichkeiten einer mehrdimensionalen Datenanalyse in Excel sind begrenzt, wie Sie bei der LDauer nach Beschäftigungsart gesehen haben. Es sind einige Zwischenschritte notwendig, bis die Daten mithilfe einfacher Formeln ausgewertet werden können.

Möchten Sie diese Analyse weiter unterteilen nach erfolgreichem Abschluss oder nicht, müssen Sie noch mehr Kunstgriffe und Umwege in Excel gehen.

Für weitergehende statistische Analysen verwendet man spezielle Software wie zum Beispiel die Programmiersprache R, die in Data-Science-Kreisen verbreitet ist. Sie benötigt zwar etwas Einarbeitung, aber wenn Sie sich intensiver mit dem Thema Datenauswertung auseinandersetzen wollen, lohnt sich der Aufwand.

In R können Sie große Datensätze schnell und mühelos analysieren. So werden etwa für das Ergebnis in der folgenden Abbildung nur drei Zeilen Befehlscode in R benötigt, um Boxplots der LDauer für die einzelnen Beschäftigungsarten zu erstellen.

Zusätzlich wird als weitere Variable der Abschlusserfolg betrachtet. Es ist deutlich zu sehen, dass für Abschlüsse längere Telefonate geführt wurden; die roten Boxplots liegen weiter oben im Diagramm.

© Florian Bliefert – www.business-wissen.de
LDauer in Abhängigkeit von Beschäftigungsart und Abschluss

Eventuell ergeben sich viele weitere Fragen aus dieser Grafik, denen sich nachzugehen lohnt. Zum Beispiel: Warum hat ein Techniker 4.920 Sekunden (82 Minuten) telefoniert und dann nicht abgeschlossen? (der Ausreißer rechts oben)

Das ist eine der Gefahren, wenn Sie sich „durch den Datensatz treiben lassen“ – Sie kommen nicht zu einem Ende. Hier müssen Sie sich selbst eine Grenze setzen, zum Beispiel ein Zeitlimit, wie lange Sie sich mit dem Datensatz beschäftigen möchten.

Gerade im Unternehmenskontext soll Ihre Arbeit einen Nutzen für das Unternehmen haben, und mit Data-Mining wollen Sie Informationen für eine Entscheidungsfindung liefern.

Hinweis

Python in Excel

Wenn Sie Microsoft 365 für Enterprise- und Business-Benutzer nutzen, können Sie innerhalb von Excel mit der Programmiersprache Python arbeiten. Dort stehen Ihnen ebenfalls viele Werkzeuge für die explorative Datenanalyse zur Verfügung.

Die nächsten Schritte im Data-Mining

Die vorgestellten Werkzeuge und Techniken sind nur ein Anfang in das Data-Mining. Damit können Sie bereits Sachverhalte und die dazugehörenden Datensätze analysieren, viele Fragen beantworten und Entscheidungen vorbereiten.

Sollten Sie dabei an Grenzen stoßen und umfangreichere Statistikkenntnisse benötigen oder spezialisierte Software, lassen Sie sich davon nicht aufhalten! Auch viele KI-Tools wie Copilot, ChatGPT oder Gemini können Sie dabei unterstützen.

Data-Mining ist keine Geheimwissenschaft, sondern die Kunst, Informationen in Daten zu finden und zur Entscheidungsfindung zu nutzen – und diese Kunst kann man lernen.

Praxis

Datenquellen identifizieren

Klären Sie, in welchen Bereichen Ihres Unternehmens Daten oder Massendaten vorliegen, die sich für eine explorative Analyse eignen. Verschaffen Sie sich einen Überblick über die Datensätze und die dort erfassten Daten im Hinblick auf:

  • aktueller Stand
  • Erhebung und Messung der Daten
  • Zeitraum, den die Daten umfassen
  • Größe des Datensatzes
  • Parameter oder Variablen, die im Datensatz vorliegen (die Daten im Einzelnen)

Fragestellungen klären

Klären Sie, welche Fragestellungen Ihres Unternehmens und der einzelnen Fachbereiche und welche Themen und Aspekte mithilfe dieser Daten beantwortet werden könnten. Beispiele sind Datenquellen, Datensätze und Daten zum:

  • Kundenverhalten
  • Marktentwicklung
  • Prozessqualität
  • Beschwerdemanagement
  • Qualitätsmanagement
  • Liquiditätsplanung
  • Störungen
  • Beschaffung
  • Lieferantenleistungen
  • Materialwirtschaft
  • Personalmanagement

Formulieren Sie für Ihre Fragestellungen und Themen einzelne Hypothesen, Annahmen oder spezielle Fragen, die Sie mithilfe der verfügbaren Daten beantworten wollen. Nutzen Sie dazu die folgende Vorlage.

Hypothesen prüfen, Daten analysieren, Fragen beantworten

Nutzen Sie die Methoden der deskriptiven Statistik, um sich einen Überblick über den Datensatz zu verschaffen.

Dafür eignet sich im ersten Schritt insbesondere die Fünf-Punkte-Zusammenfassung. Berechnen Sie für die numerischen Variablen in Ihrem Datensatz also:

  • Minimum
  • Maximum
  • Mitte – Median
  • 1. Quartil
  • 3. Quartil

Berechnen Sie außerdem den Mittelwert oder Durchschnitt für Ihren Datensatz. Erstellen Sie auch ein Histogramm und ein Boxplot für die Beschreibung Ihrer Daten.

Analysieren Sie die kategorischen Variablen des Datensatzes (Nominalskala), indem Sie die Häufigkeit ihres Auftretens zählen.

Bilden Sie dann für die explorative Datenanalyse Verknüpfungen für Ihre Daten und die einzelnen Variablen. Gehen Sie dabei von Ihren Hypothesen aus. Erstellen Sie eine Matrix (Kreuztabelle) wie oben beschrieben.

Nutzen Sie als Muster oder Beispiel für Ihre Datenanalyse die folgende Excel-Vorlage mit

  • Lageparametern
  • Histogramm
  • Boxplot
  • Pareto-Diagramm
  • Häufigkeits-Diagramm

Prüfen Sie schließlich, inwiefern eine weitergehende Datenanalyse weitere Erkenntnisse und Antworten für Ihre unternehmerischen Entscheidungen liefern könnte. Klären Sie: Braucht es dafür andere Statistik-Tools oder weiterführendes Know-how zur Statistik?

Dazu im Management-Handbuch

Vorlagen nutzen

Weitere Kapitel zum Thema