Prof. Dr. Felix Naumann : Schmutzige Daten – Warum wir Werbung doppelt erhalten und was die Informatik dagegen tut

Duplikate in Datenbanken können zu schweren Fehlern führen. Mit einem neuen Verfahren sollen Sie erkannt und vermieden werden.

Prof. Dr. Felix Naumann
Prof. Dr. Felix NaumannFoto: Oliver Elsner

Datenfehler, zum Beispiel falsche Namensschreibungen, führen zu Duplikaten, also zu mehrfachen Datenbankeinträgen über dieselbe Person. Werden Duplikate nicht erkannt, wird Post doppelt versandt, Kreditrisiken werden nicht erkannt, und Kennzahlen werden falsch berechnet. Das Auffinden solcher Duplikate ist besonders schwierig: Mittels komplexer Ähnlichkeitsmaße werden Datensätze miteinander verglichen, eine hohe Ähnlichkeit lässt auf ein Duplikat schließen. Um nicht aufwändig jeden Datensatz mit jedem anderen vergleichen zu müssen, werden spezialisierte Verfahren eingesetzt, die viele unnötige Vergleiche vermeiden.

Video
Prof. Felix Naumann
Prof. Felix Naumann

Zur Person

Hasso-Plattner-Institut für Softwaresystemtechnik, Chair Information Systems

Felix Naumann leitet seit 2006 das Fachgebiet Informationssysteme am Hasso Plattner Institut in Potsdam. Dort entwickelt er zusammen mit seinem Team Methoden zur Datenanalyse, Datenreinigung und Informationsintegration. Felix Naumann studierte Wirtschaftsmathematik an der Technischen Universität Berlin und promovierte an der Humboldt Universität. Nach einem zweijährigen Forschungsaufenthalt am IBM Almaden Research Center lehrte und forschte er als Juniorprofessor an der Humboldt Universität zu Berlin.

Links

http://hpi.de/naumann/people/felix-naumann.html

Schlagworte

Datenqualität
Informationsqualität
Datenreinigung
Dublettenerkennung
Duplikaterkennung