Python in Excel für die DatenanalyseSpalten gezielt analysieren und Kennzahlen ermitteln

Warum Spaltenanalysen wichtig sind
Durchschnittswerte berechnen – mean()
Häufigste Werte ermitteln – mode()
Eindeutige Werte in einer Spalte ermitteln – unique()
Anzahl eindeutiger Werte bestimmen – nunique()
Gesamtumsatz berechnen
Durchschnittlicher Umsatz pro Transaktion berechnen
Größte Werte finden – nlargest()
Kleinste Werte finden – nsmallest()

Warum Spaltenanalysen wichtig sind

In vielen praktischen Analysen interessiert man sich nicht für alle Variablen gleichzeitig. Häufig stehen einzelne Kennzahlen im Mittelpunkt, zum Beispiel:

Preis eines Produkts
verkaufte Stückzahl
Umsatz einer Transaktion
geografische Informationen wie Land oder Stadt

Mit Pandas lassen sich solche Spalten sehr einfach auswählen und analysieren. Dadurch können Sie schnell wichtige Kennzahlen berechnen und interessante Muster in den Daten erkennen.

Durchschnittswerte berechnen – mean()

Eine häufige Fragestellung bei der Analyse von Daten lautet: Wie hoch ist der durchschnittliche Wert einer Variablen?

In Pandas lässt sich der Mittelwert mit der Funktion mean() berechnen. Beispiel: durchschnittlicher Preis:

import pandas as pd
umsatz = xl("Umsatzdaten[#Alle]", headers=True)
umsatz["Preis"].mean()

Das Ergebnis zeigt den durchschnittlichen Preis aller Transaktionen. Der Mittelwert ist eine der wichtigsten Kennzahlen in der Datenanalyse und wird häufig für erste Einschätzungen verwendet.

Berechnung des Mittelwerts (Durchschnitt) mit Python und Pandas

Häufigste Werte ermitteln – mode()

Neben Durchschnittswerten kann auch der häufigste Wert einer Spalte interessant sein. Diese Kennzahl nennt man Modus. Beispiel: häufigstes Produkt

import pandas as pd
umsatz = xl("Umsatzdaten[#Alle]", headers=True)
umsatz["Produkt"].mode()

Das Ergebnis zeigt den Wert, der im Datensatz am häufigsten vorkommt. Diese Kennzahl wird häufig verwendet, um typische Kategorien oder dominante Werte zu erkennen.

Berechnung des Modus (häufigster Wert) mit Python und Pandas

Eindeutige Werte in einer Spalte ermitteln – unique()

Eine weitere wichtige Frage bei der Analyse lautet: Welche Merkmalsausprägungen für eine Variable existieren überhaupt im Datensatz? Diese Information lässt sich mit der Funktion unique() ermitteln. Beispiel:

import pandas as pd
umsatz = xl("Umsatzdaten[#Alle]", headers=True)
umsatz.Land.unique()

Das Ergebnis ist eine Liste aller einzigartigen Werte in dieser Spalte. Damit können Sie beispielsweise erkennen, in welchen Ländern Verkäufe stattgefunden haben.

Ausgabe aller Merkmalsausprägungen einer Variablen mit Python und Pandas

Anzahl eindeutiger Werte bestimmen – nunique()

Manchmal interessiert nicht der konkrete Wert, sondern nur die Anzahl der unterschiedlichen Einträge. Dafür gibt es die Funktion nunique().

import pandas as pd
umsatz = xl("Umsatzdaten[#Alle]", headers=True)
umsatz.Stadt.nunique()

Das Ergebnis könnte zum Beispiel zeigen, dass Verkäufe in 6 verschiedenen Städten stattgefunden haben.

Ausgabe der Anzahl von unterschiedlichen Merkmalsausprägungen einer Variablen mit Python und Pandas

Gesamtumsatz berechnen

Eine besonders wichtige Kennzahl für viele Business-Analysen ist der Gesamtumsatz. Der Umsatz ergibt sich aus:

Preis × Verkaufsmenge

Mit Pandas lässt sich diese Kennzahl sehr einfach berechnen, indem eine Summe mit sum() gebildet wird.

import pandas as pd
umsatz = xl("Umsatzdaten[#Alle]", headers=True)
(umsatz["Preis"] * umsatz["Verkaufsmenge"]).sum()

Hier passiert Folgendes:

Preis und Verkaufsmenge werden für jede Zeile miteinander multipliziert
Daraus entsteht der Umsatz pro Transaktion (Zeile)
Anschließend werden alle Werte aufsummiert

Das Ergebnis ist der Gesamtumsatz des gesamten Datensatzes.

Berechnung einer Summe mit Python und Pandas

Durchschnittlicher Umsatz pro Transaktion berechnen

Neben dem Gesamtumsatz ist häufig auch der durchschnittliche Umsatz pro Transaktion interessant.

import pandas as pd
umsatz = xl("Umsatzdaten[#Alle]", headers=True)
(umsatz["Preis"] * umsatz["Verkaufsmenge"]).mean()

Diese Kennzahl zeigt, wie hoch der Umsatz im Durchschnitt pro Verkauf ist. Sie wird häufig verwendet für:

Vertriebsanalysen
Performance-Messungen
Vergleich unterschiedlicher Zeiträume

Berechnung eines Durchschnitts mit Python und Pandas

Erläuterung

Die Berechnung des Gesamtumsatzes und des durchschnittlichen Umsatzes zeigt das Prinzip, nach dem Python und Pandas rechnen:

Der Ausdruck in der Klammer (), hier Preis × Umsatz, wird zunächst für jeden einzelnen Datensatz aus den angegebenen Variablen (Preis und Umsatz) berechnet: hier: Multiplikation (*).
Dann geben Sie an, was mit diesem berechneten Wert als Nächstes berechnet werden soll. Im ersten Fall die Summe sum() und im zweiten Fall der Mittelwert mean().

Größte Werte finden – nlargest()

Eine weitere sehr hilfreiche Funktion ist nlargest(). Damit lassen sich die größten Werte einer Spalte schnell ermitteln. Beispiel: die zehn größten Transaktionen mit der höchsten Verkaufsmenge:

import pandas as pd
umsatz = xl("Umsatzdaten[#Alle]", headers=True)
umsatz.nlargest(10,"Verkaufsmenge")

Solche Analysen helfen beispielsweise dabei, besonders große Verkäufe oder wichtige Kunden zu identifizieren.

Ausgabe der größten Werte für eine Variable

Kleinste Werte finden – nsmallest()

Analog dazu gibt es auch die Funktion nsmallest(), mit der sich die kleinsten Werte einer Spalte anzeigen lassen. Beispiel: die zehn niedrigsten Preise.

import pandas as pd
umsatz = xl("Umsatzdaten[#Alle]", headers=True)
umsatz.nsmallest(10,"Preis")

Diese Funktion kann beispielsweise verwendet werden, um:

besonders günstige Produkte zu identifizieren
ungewöhnlich niedrige Werte zu finden
mögliche Dateneingabefehler aufzudecken

Ausgabe der kleinsten Werte für eine Variable

Kapitel 318

Python in Excel für die Datenanalyse

1
Kennzahlen der explorativen Datenanalyse mit Pandas
2
Hilfreiche Funktionen in Python für die explorative Beschreibung eines Datensatzes
3
Spalten gezielt analysieren und Kennzahlen ermitteln

Dokumentenpaket kaufen Premium-Mitglied werden