Datenmanagement: Datenqualität entscheidet über Geschäftserfolg

INITIATIVE

WISSEN UND PRAXIS

BUSINESS FORUM

VERANSTALTUNGEN UND SEMINARE

SERVICES

ONLINE BUSINESS-MANAGER

Nachrichten Fachartikel Kolumnen Interviews Online-Wissenstests Leitfäden Mustervorlagen

Fachartikel, 22.11.2011

Datenmanagement

Datenqualität entscheidet über Geschäftserfolg

Von Holger Wandt, Human Inference

Rund ein Viertel der Adressdaten in deutschen Unternehmen ist fehlerhaft und verursacht Schäden im mehrstelligen Millionenbereich. Ein ganzheitlicher Ansatz beim Datenmanagement zur Sicherung der Datenqualität mit Data Profiling, Data Cleansing und Monitoring hilft, unliebsame Dubletten zu vermeiden.

Im Schnitt ist mehr als jede vierte Datensatz von Kunden fehlerhaft.

Etwa 8 Millionen Umzüge und 840.000 Sterbefälle pro Jahr in Deutschland führen zu Änderungen bei den Adressen, 370.000 Hochzeiten und 190.000 Scheidungen bringen oft Namenswechsel mit sich. Hinzu kommen jährlich tausende Änderungen bei Straßennamen, Postleitzahlen und Orten. Außerdem passieren bei der Erfassung von Kundendaten Fehler – ein Missstand, der Studien auf den Plan ruft. Die Deutsche Post Direkt stellte in ihrer „Benchmark Kundendaten-Qualität“ Datenbanken aus 10 Branchen nach sechs Kriterien auf den Prüfstand: postalisch fehlerhaft, unzustellbar auf Personen- und Haushaltsebene, unbekanntes Gebäude, korrigierte Adressen, Umzugsadressen und Dubletten lauteten die Kriterien. Das Ergebnis: Als gesamt unzustellbar führten die Automobilhersteller mit 16,1 Prozent, Telekommunikation und Verlagsgewerbe teilten sich mit 12 Prozent den zweiten Platz im Defizit-Ranking, die Banken folgten mit 11,7 Prozent. Doch selbst bei der Branche, die am meisten für ihre Datenqualität tut – dem Versandhandel – wiesen die untersuchten Adressdatenbanken im Durchschnitt 3,5 Prozent unzustellbare Anschriften auf Personen- oder Haushaltsebene auf.

Schäden im mehrstelligen Millionenbereich

Die aktuelle Ausgabe der Data Quality-Studie „Adressqualität als Erfolgsfaktor in Unternehmen“ für das Jahr 2011 kommt zu ähnlichen Ergebnissen. Hierfür wurden branchenübergreifend mehr als 80 Millionen Adressdaten in fast 1.200 Projekten untersucht. „Während der gesamten Studiendauer fanden sich in jedem Projekt im Durchschnitt 26 Prozent fehlerhafte Adressen, damit ist fast jeder vierte Datensatz nicht korrekt“, lautet das Ergebnis der Untersuchung, die von der Bertelsmann-Tochter bedirect GmbH & Co. KG in Gütersloh zwischen 2007 und 2010 durchgeführt wurde. In 33 Prozent aller Fälle lag die Korrektheit der postalischen Daten unter 80 Prozent. Lediglich in fünf Prozent aller untersuchten Datenbanken fanden sich keine Dubletten.

„Die fehlerhaften Daten verursachen allein in Marketing und Vertrieb geschätzte Kosten im mehrstelligen Millionenbereich“, konstatiert die Studie. Sie führten zu Imageverlust ebenso wie zu einer massiven Mehrbelastung der Mitarbeiter. Betroffen von den hohen materiellen und ideellen Schäden, die aus überalterten und schlecht gepflegten Daten resultieren, seien nahezu alle Bereiche: Marketing und Vertrieb, Einkauf, Risikomanagement und Geschäftsleitung.

Ganzheitlicher Ansatz verknüpft mehrere Teilprozesse

Ein ganzheitlicher Ansatz zur Sicherung der Datenqualität, der die einzelnen Teilprozesse miteinander verknüpft, kann hier Abhilfe schaffen. Die Teilprozesse umfassen das Data Profiling, das Data Cleansing und das Monitoring. Das Data Profiling gibt nicht nur Aufschluss darüber, welche Datentypen in einer Kundendatenbank vorhanden sind, sondern lässt auch erkennen, wie valide und gebräuchlich diese Daten sind. Beim Data Cleansing werden die erkannten Probleme durch Anwendung verschiedener Algorithmen direkt behoben. Um dem ganzheitlichen Ansatz zur Qualitätssteigerung Rechnung zu tragen, bedarf es schließlich einer kontinuierlichen Überprüfung der Konsistenz, Korrektheit und Zuverlässigkeit der Daten. Neue Daten werden deshalb im Teilprozess „Monitoring“ vor der Speicherung in den operativen und analytischen Systemen überprüft und in bestimmten Zeitabständen findet eine Prüfung der gesamten Kundendaten statt.

Da die manuelle Bereinigung großer Datenmengen nicht in effizienter Weise durchgeführt werden kann, ist der Einsatz von Data-Cleansing-Werkzeugen zu empfehlen. Mit ihrer Hilfe kann teilweise auch der Prozess der Datenintegration automatisiert werden. Bei der Zusammenführung gleicher Datenbestände aus unterschiedlichen Datenquellen müssen diese Datensätze zunächst identifiziert werden. Dann ist zu entscheiden, welche Bestandteile der Dubletten in den bereinigten Datenbestand übernommen werden sollen. Denn ganz gleich, woher die Daten stammen – ob von CRM-Anwendungen, von Call-Center-Agents oder externen Datenlieferanten – weisen diese Quellen regelmäßig große Unterschiede in Inhalt, Format und ihrer syntaktischen und semantischen Gültigkeit auf. Dazu können die Daten noch unvollständig, ungenau oder veraltet sein oder in anderer Weise abweichen. Und es besteht zudem die Gefahr der ungewollten mehrfachen Aufnahme.

Menschliches Wissen ist gefragt

Um Dubletten in großen Kundendatenbanken zu bereinigen, versprechen vor allem jene Verfahren Erfolg, die computergestützte Schlussfolgerungen mit der menschlichen Intelligenz kombinieren. Denn wenn angesichts der zunehmenden Globalisierung die Namen unterschiedlichster Nationalitäten Einzug in die Kundendatenbanken der Geldinstitute halten, stoßen die üblichen mathematischen Prozeduren zur Dublettenerkennung und Adressvalidierung schnell an ihre Grenzen. Dies gilt auch, wenn weltweit operierende Konzerne es bei ihren Adressdaten mit verschiedenen landesspezifischen Schreibweisen zu tun haben. Um hier „saubere“ Daten zu bekommen, ist länderspezifisches Wissen gefragt. Es muss zum Beispiel nationale Besonderheiten der Adressierung, Namen und deren Schreibweisen berücksichtigen. Neben den herkömmlichen mathematischen Verfahren kommen deshalb in der Datenqualitätssoftware zunehmend auch wissensbasierte Methoden zum Einsatz, die Einsichten der Computerlinguistik zur Spracherkennung und -synthese anwenden. Im Ergebnis wird eine deutlich höhere Erkennungsquote von Dubletten erreicht – über Länder- und Sprachgrenzen hinweg.

Allerdings sollte man den notwendigen Aufwand nicht unterschätzen. Während der erste Schritt – das Data-Profiling – sofort durchgeführt werden kann, nimmt die Beseitigung der Dubletten je nach Umfang der Datenbank und vorhandener Qualität unter Umständen mehrere Wochen oder Monate in Anspruch. Die Erfahrung zeigt, dass die Gewährleistung einer hohen Datenqualität einige Zeit braucht. Ziel ist deshalb meist nicht eine sofortige Komplettbereinigung der Kundendaten, sondern vor allem eine stetige Verbesserung und die Vermeidung von Dubletten direkt bei der Datenerfassung nach dem Prinzip, beim ersten Mal gleich alles richtig zu machen („First Time Right“). Zusätzlich werden die Daten – falls nötig– auch direkt korrigiert, vervollständigt und standardisiert.

QUERVERWEIS

Kundendatenmanagement

Kostenloses Whitepaper "First Time Right"

Erfahren Sie in diesem kostenlosen Whitepaper, wie sich mittels verlässlicher Business Intelligence im Kundendatenmanagement eine höhere Kundenzufriedenheit, Produktivität und spürbare Umsatzsteigung erzielen lässt.

Whitepaper kostenlos herunterladen

ZUM AUTOR

Über Holger Wandt

Human Inference

Holger Wandt ist Principal Advisor beim niederländischen Datenqualitätsspezialisten Human Inference und verantwortlich für alle wissensbezogenen Fragen zur Datenqualität. Daneben ist er als Experte zuständig für alle ...

Human Inference

Fritz-Vomfelde-Str. 34-38

40547 Düsseldorf

+49-211-522815-0