Data Cleansing

Der Begriff Data Cleansing (Datenbereinigung) umfasst verschiedene Methoden und Verfahren, mit denen Fehler, Mängel und Ungenauigkeiten in Datenbanken und anderen Informationssystemen korrigiert oder entfernt werden.

Fehler können beispielsweise ursprünglich falsch erfasste, veraltete, inkonsistente oder redundante Daten sein.

Besonders wichtige Bestandteile des Data Cleansing sind die Erkennung und die Beseitigung von Duplikaten sowie die Datenfusion, bei der lückenhafte Datensätze zusammengeführt und vervollständigt werden. Damit trägt die Datenbereinigung deutlich zu einer Verbesserung der Informationsqualität bei.

Branchen, die mit großen Datenmengen arbeiten - beispielsweise Versicherungen, Banken, Telekommunikationsunternehmen oder Online Shops mit vielen Artikeln und Kunden - nutzen für das Data Cleansing entsprechende Software Tools, da eine manuelle Korrektur aus zeitlichen und wirtschaftlichen Gründen sonst kaum realisierbar ist. Diese Tools durchforsten die vorhandenen Daten an Hand von Algorithmen, festgelegten Regeln und Suchtabellen auf Fehler und Mängel. Ziel dabei ist es, am Ende valide, vollständige, einheitliche und integre Daten zu erhalten.

Der Prozess des Data Cleansing erfolgt in der Regel in fünf aufeinander abgestimmten Schritten:

  • Am Anfang steht die Erstellung einer Sicherungskopie der Daten oder Datenbanken, die bereinigt werden sollen. Die Kopie dient dazu, den Bereinigungsvorgang später nachvollziehen zu können und im Zweifelsfall für Revisionssicherheit zu sorgen.
  • Anschließend werden die Anforderungen an die Daten, also die Datenqualität, definiert und alle für die Auswertung erforderlichen Daten separiert, wie beispielsweise in Branche, Region, Produktgruppe, Kundengruppe, Geschäftsbereich, Umsatz bzw. Volumen.
  • Im dritten Schritt erfolgt eine Analyse der vorhandenen Datensätze. Hier soll insbesondere sichergestellt werden, dass die zur Analyse der Informationen notwendigen Bestandteile vollständig verfügbar sind und ggf. aus anderen Datenquellen angereichert werden.
  • Ein besonders wichtiger Punkt ist die Standardisierung von Daten und damit die Nutzbarkeit und Wiederverwendung für unterschiedliche unternehmerische Zwecke. Hierfür werden die Daten zunächst strukturiert, um sie auf ein einheitliches Format zu bringen. So können etwa unterschiedliche Datumsangaben auf ein einheitliches Format (TT.MM.JJJJ) gebracht und verschiedene Währungen in EUR umgerechnet werden.
  • Schließlich werden inkonsistente Datensätze, Ausnahmen, Sonderfälle und Duplikate eliminiert, die die Auswertung der Daten verfälschen können und zu fehlerhaften Rückschlüssen führen.

Data Cleansing kann ein sehr aufwändiger Prozess werden und ggf. werden Daten verfälscht oder nicht repräsentativ gefiltert. Abhilfe schafft insbesondere die Harmonisierung von Stammdaten und Definition von Mindest- bzw. Pflichtangaben bereits in den vorgelagerten CRM-, ERP- und Shop- Systemen.

Weitere Informationen

  • Kategorie: Glossar
  • Thema: Business Intelligence & Analytics