KundendatenIn drei Schritten zu fehlerfreien Daten

Fehlerhafte Kundendaten oder Datendubletten können durch einen dreiteiligen Prozess analysiert und bereinigt werden.

Einer Studie des Data Warehouse Institute (TDWI), Internationaler Verein für Business Intelligence und Data Warehousing, zufolge verursachen Fehler in Adressdatenbanken alleine in den USA Wirtschaftsschäden von rund 600 Milliarden Dollar jährlich. Rechnet man diese Zahlen auf Deutschland um, würde sich eine Belastung von rund 186 Milliarden Euro ergeben. Grund für falsch oder mehrfach zugestellte Sendungen sind veraltete oder nicht vollständige Kundendaten. Das Problem ist die zunehmende Mobilität. Sie hat zur Folge, dass Datenbanken schneller veralten.

Auf Dubletten in Datensätzen achten

Gerade bei großen Datenbeständen sollten Unternehmen ein professionelles Datenmanagement betreiben. Denn Fehler in Datenbanken verursachen mitunter enorme Kosten. Beispiel: Ein Mailing erreicht den Empfänger nicht, weil er den Wohnort gewechselt hat. Oder die adressierte Person hat aufgrund einer Heirat ihren Namen geändert.

Fehlerfreie Daten jedoch allein reichen nicht aus. Datensätze sollten auch nicht mehrfach vorhanden sein, denn auch dadurch werden nicht selten unnötige Kosten verursacht. Beispiel: Ein Kunde erhält bei einem Mailing mehrere Zusendungen, kauft aber allenfalls ein Mal. Schätzungen besagen, dass eine gut gepflegte Datenbank zwischen 2 und 10, eine schlecht gepflegte zwischen 20 und 30 Prozent Dubletten enthält.

Daten analysieren, bereinigen und managen

Bereits bei der ersten Dateneingabe sollten Unternehmen auf die Vollständigkeit und Korrektheit der Daten achten (Prinzip des „First time right“). Experten empfehlen, beim Anlegen neuer Kundendaten stets ein einheitliches Schema zu verwenden. Damit lässt sich nicht nur eine aufwändige Fehlersuche im Nachhinein vermeiden, sondern auch Zeit einsparen. Zudem wird die Verlässlichkeit erhöht.

Befinden sich jedoch bereits fehlerhafte Daten im System, können diese mit den entsprechenden Tools bereinigt werden. Gewährleistet wird dies durch einen permanenten Prozess mit den drei Teilprozessen Data Profiling, Data Cleansing und Monitoring.

1. Data Profiling

Beim Data Profiling werden die Daten analysiert. Dieser Prozess dient dem Erkennen von Inkonsistenzen, Fehlern und Widersprüchen in den Datenbeständen. Aus den daraus gewonnenen Informationen können Maßnahmen abgeleitet werden, die zur Verbesserung der Datenqualität beitragen.

2. Data Cleansing

Data Cleansing meint die Datenbereinigung. Dabei werden die erkannten Probleme durch die Anwendung verschiedener Algorithmen direkt behoben. Typische Arbeiten bei der Datenbereinigung sind zum Beispiel Datentypkonvertierungen, Dublettenerkennung oder Vervollständigung lückenhafter Daten. Diese Phase kann sehr zeitintensiv werden.

3. Monitoring

Im Teilprozess Monitoring werden die Daten vor der Speicherung in den operativen und analytischen Systemen überprüft. In bestimmten Zeitabständen findet auch eine Prüfung des gesamten Kundendatenbestands statt. Hintergrund: Wurde einmal eine bestimmte Datenqualität erreicht, sollte diese möglichst langfristig gewahrt bleiben.

Eine langfristige Datenqualität kann sichergestellt werden, indem etwa Stammdaten nur von einer verantwortlichen Person angelegt und geändert werden. Auch durch technische Unterstützung wie beispielsweise einer Validierung der Eingabefelder oder durch Workflow-Unterstützung lässt sich dies gewährleisten.

Software-Unterstützung bei großen Kundendatenbanken

Eine manuelle Bereinigung großer Datenmengen lässt sich nur schwer effizient bewältigen. Hier können Data-Cleansing-Werkzeuge Abhilfe schaffen. Mit ihnen lässt sich teilweise auch der Prozess der Datenintegration automatisieren. Um Dubletten in großen Kundendatenbanken zu bereinigen, versprechen vor allem jene Verfahren Erfolg, die computergestützte Schlussfolgerungen mit menschlicher Intelligenz kombinieren. Denn wenn angesichts der zunehmenden Globalisierung Namen unterschiedlichster Nationalitäten Einzug in Kundendatenbanken halten, stoßen die üblichen mathematischen Prozeduren zur Dublettenerkennung und Adressvalidierung schnell an ihre Grenzen.

Dies gilt auch, wenn es weltweit operierende Konzerne bei ihren Adressdaten mit verschiedenen landesspezifischen Schreibweisen zu tun haben. An dieser Stelle kommen Unternehmen um länderspezifisches Wissen nicht herum, denn es müssen beispielsweise nationale Besonderheiten der Adressierung, der Namen und der Schreibweisen berücksichtigt werden.

Einsatz wissensbasierter Methoden

Neben den herkömmlichen mathematischen Verfahren kommen in der Datenqualitätssoftware zunehmend auch wissensbasierte Methoden zum Einsatz, die Einsichten der Computerlinguistik zur Spracherkennung und -synthese anwenden. Im Ergebnis wird eine deutlich höhere Erkennungsquote von Dubletten erreicht – über Länder- und Sprachgrenzen hinweg.

Unternehmen können durch diese Maßnahmen die Qualität ihrer Kundendaten merklich steigern. Allerdings ist dabei eine einmalige Bereinigung in der Regel nicht ausreichend. Daten verändern sich ständig und müssen fortlaufend gepflegt werden. Nur mit richtigen Daten können deren Konsistenz, Korrektheit und Vollständigkeit gewährleistet werden, denn eine korrekte Kundenansprache vermeidet nicht nur Kosten, sondern auch Imageschäden.

Dazu im Management-Handbuch

Ähnliche Artikel

Excel-Tipps