Python in Excel für die DatenanalyseTextdaten verarbeiten mit Pandas

  • Warum Textdaten oft problematisch sind
  • Datensatz laden
  • Text suchen – str.contains()
  • Einstellungen für str.contains()
  • Text ersetzen – str.replace()
  • Leerzeichen entfernen – str.strip()
  • Fehlende Werte prüfen mit isnull().sum()
  • Einheitliche Schreibweise herstellen
  • Text aufteilen – str.split()
  • Kategorien bereinigen
  • Häufigkeiten von Texten analysieren
  • Duplikate erkennen und entfernen
  • Encoding-Probleme

Warum Textdaten oft problematisch sind

In vielen Datensätzen sind Textfelder eine große Herausforderung. Typische Probleme sind:

  • unterschiedliche Schreibweisen ("Deutschland", "DE", "deutschland")
  • Tippfehler
  • zusätzliche Leerzeichen
  • uneinheitliche Kategorien

Solche Probleme führen dazu, dass Auswertungen falsche Ergebnisse liefern.

Beispiel: Deutschland und deutschland werden als zwei unterschiedliche Werte behandelt.

Deshalb ist die Bereinigung von Textdaten ein wichtiger Schritt jeder Datenanalyse. Dazu gehen Sie folgendermaßen vor.

Vorlagen nutzen

Weitere Kapitel zum Thema