Python in Excel für die DatenanalyseTextdaten verarbeiten mit Pandas
- Warum Textdaten oft problematisch sind
- Datensatz laden
- Text suchen – str.contains()
- Einstellungen für str.contains()
- Text ersetzen – str.replace()
- Leerzeichen entfernen – str.strip()
- Fehlende Werte prüfen mit isnull().sum()
- Einheitliche Schreibweise herstellen
- Text aufteilen – str.split()
- Kategorien bereinigen
- Häufigkeiten von Texten analysieren
- Duplikate erkennen und entfernen
- Encoding-Probleme
Warum Textdaten oft problematisch sind
In vielen Datensätzen sind Textfelder eine große Herausforderung. Typische Probleme sind:
- unterschiedliche Schreibweisen ("Deutschland", "DE", "deutschland")
- Tippfehler
- zusätzliche Leerzeichen
- uneinheitliche Kategorien
Solche Probleme führen dazu, dass Auswertungen falsche Ergebnisse liefern.
Beispiel: Deutschland und deutschland werden als zwei unterschiedliche Werte behandelt.
Deshalb ist die Bereinigung von Textdaten ein wichtiger Schritt jeder Datenanalyse. Dazu gehen Sie folgendermaßen vor.


