Datenqualität: Ein Must-have für Machine Learning

Publish date:

Seit der Ankunft von künstlicher Intelligenz (KI) blicken wir in Datensätze mit einer Detailtiefe von denen die traditionelle Statistik nur träumen konnte.

RSS-Feed abonnieren

Big Data ermöglicht und erfordert diesen bahnbrechenden Fortschritt mit Techniken wie dem maschinellen Lernen. Zwei der 4 Vs von Big Data sind für maschinelles Lernen (ML) unabdingbar: Volumen und Vielfalt.

Ein Beispiel: Wenn viele Nutzer einen Onlineshop besuchen, lässt sich ihr Verhalten ab einem bestimmten Datenvolumen klassifizieren und vorhersagen. Das Ergebnis sind personalisierte Produktempfehlungen auch für Besucher, die zum ersten Mal kommen.

Verwenden wir vergleichsweise simple ML-Techniken wie zum Beispiel Entscheidungsbäume, braucht jeder Entscheidungsknoten mindestens zehn Durchläufe im Training mit Testdaten. Rechnen wir hoch auf zehntausend Entscheidungspunkte sind wir schnell bei Millionen von Datensätzen, um das ganze Modell abzudecken. Offensichtlich eine enorme Herausforderung.

Müll rein, Müll raus

Damit die KI kein falsches Versprechen bleibt, brauchen wir Daten mit der richtigen Qualität. Ganz nach der Data-Devise „Müll rein, Müll raus“. Aber warum wird dieses Motto mit AI und ML problematischer denn je? Bei der traditionellen Datenanalyse kann man schlechte Daten immer noch rausschmeißen und von vorne anfangen. Es ist mühselig, aber machbar. Beim maschinellen Lernen wird es da schon schwieriger.

„Schlechte Datensätze erkennen Sie an fehlerhaften Daten, Ausreißern, verzerrten Werteverteilungen, redundanten Informationen und schlecht erläuterten Funktionen.“ (John Paul Mueller, Luca Massaron)

Aber so eine Aufräumaktion funktioniert im größeren Rahmen nicht einfach so. Bei Big Data und ML können schlechte Daten nur schwer bis gar nicht erkannt bzw. entfernt werden. Ergo zieht die KI Schlüsse aus Datensätzen, die möglicherweise schlechte Daten enthalten. Ab einem gewissen Grad wird es unmöglich, herauszufinden, auf welchen Datenelementen die Vorhersagen basieren. So wird die KI zur Black-Box-Technologie. „Verlernen“ ist fast unmöglich. Wird ein Element entfernt, kollabiert gleich das ganze Modell. Genau wie beim menschlichen Gehirn. Fußt unser erlerntes Wissen in Teilen auf falschen Grundannahmen oder Informationsbausteinen, verliert der ganze Komplex seinen Wert und wir müssen von vorne beginnen.

Fragen, die Sie sich stellen müssen

Woher weiß ich, ob meine Daten eine gute Qualität haben? Das Stichwort lautet Veracity (zu Deutsch Richtigkeit) – ein weiteres wichtiges V von Big Data. Es bezieht sich auf die Vertrauenswürdigkeit der Daten. Ohne zu tief im Thema abzutauchen, hier ein paar grundlegende Fragen, die Sie sich über die Daten, die Sie nutzen wollen, stellen können:

Wer & Wieso: Daten von renommierten Quellen sind normalerweise akkurater als eine x-beliebige Online-Umfrage. Oft dienen Daten einer bestimmten Agenda. Daher müssen wir die Glaubwürdigkeit der Datenquelle und ihren Zweck bestimmen. Fragen Sie sich ganz bewusst: Sind die Ergebnisse tendenziös, weil sie eine bestimmte politische, geschäftliche, ethische oder ideologische Sichtweise belegen sollen?

Wo: Fast alle Daten sind zu einem gewissen Grad geografisch oder kulturell befangen. Kundendaten aus den USA sind für Kunden in Asien nicht repräsentativ. Und allein in Asien sind die kulturellen Unterschiede riesig. Wenn wir Dinge wie Temperaturen objektiv messen, ist die Interpretation der Daten unterschiedlich: Was ist kalt, was ist warm? Und natürlich sind Temperaturdaten aus Paris wenig hilfreich, um das Wetter in Mumbai vorherzusagen.

Wann: Validität ist auch eines der Vs von Big Data. Die meisten Daten sind auf irgendeine Weise zeitbezogen, zum Beispiel als Serie oder Momentaufnahme stellvertretend für eine bestimmte Periode. Lassen Sie überholte Daten aus. Doch wenn Sie die künstliche Intelligenz über längere Zeit nutzen, können Daten noch während des Prozesses veralten. „Maschinelles Verlernen“ wird nötig sein, um ungültige Daten wieder loszuwerden.

Wie: Es lohnt sich zu wissen, wie die Daten gesammelt wurden. Domänenwissen ist hier essentiell. Bei Kundendaten zum Beispiel können wir aus einem über Jahrzehnte gewachsenen Pool an Methoden der Marktforschung schöpfen. Ist ein Fragebogen schlecht konstruiert, wird er mit großer Wahrscheinlichkeit zu Daten von nur geringer Qualität führen.

Was: Am Ende des Tages wollen Sie natürlich wissen, was ihre Daten aussagen. Um das herausfinden, sollten Sie wissen, in welchem Zusammenhang die Daten stehen. Menschen können schlechte Daten oder Ausreißer identifizieren, weil sie unlogisch erscheinen. Prüfen Sie also, woher seltsam anmutende Daten stammen. Eine künstliche Intelligenz kann sich dieses gesunden Menschenverstandes nicht bedienen. Sie tendiert dazu, alle Daten als wahr anzunehmen.

Kümmern Sie sich um Ihre Daten

Um anständige Antworten auf diese Fragen zu finden, müssen Sie einen Prozess zur Forschung an der Datenqualität aufsetzen, implementieren und verwenden. Aber das allein ist noch nicht alles: Die Richtigkeit der Daten sicherzustellen ist eine kontinuierliche Komponente der Daten- und Inhaltspflege. Wie ein Kurator im Museum, der prüft ob Ausstellungsstücke echt oder gefälscht sind, sollte ein Daten-Kurator dasselbe mit seinen Daten tun.

„Kuration ist der umfassende Prozess von der Erzeugung guter Daten bis zur Identifikation und Formation von Ressourcen mit langfristigem Wert. (…) Das Ziel der Datenpflege im Unternehmen ist zweierlei: Um Compliance zu garantieren und damit Daten für weitere Forschung wiederverwertet werden können.“ (Mary Ann Richardson)

Wenn Sie Ihre Daten für KI-Systeme und maschinelles Lernen nutzen wollen, müssen Sie über die Standard-Kriterien hinausgehen. Natürlich gelten klassische Vorbedingungen wie Verfügbarkeit, Nutzbarkeit und Verlässlichkeit auch weiterhin. Die Krux liegt in der Wahrhaftigkeit der Daten. Ich hoffe mit meinem Artikel konnte ich Ihnen einen guten Ausgangspunkt liefern, um die richtigen Fragen zu stellen und die Daten effektiv auf ihre Richtigkeit zu prüfen.

Lesen Sie auch meine anderen Beiträge zum Thema künstliche Intelligenz und kognitives Computing.

Weitere Posts

Artificial Intelligence

Künstliche Intelligenz benötigt Datenmanagement – und umgekehrt

Axel Toonen
Date icon September 27, 2019

Wie Künstliche Intelligenz und Machine Learning digitale Transformationsinitiativen antreiben...

IT-Trends

Künstliche Intelligenz: Was IBM und der Brexit gemeinsam haben

Schladitz, Fabian
Date icon Mai 10, 2019

Alle reden von den vielfältigen Einsatzmöglichkeiten Künstlicher Intelligenz (KI), aber viele...

Digitalisierung

IT Trends: Das Ende der Effizienz?

Thomas Heimann
Date icon April 5, 2019

Unternehmen müssen schnell digitalisieren. Das ist teuer – und erstes Opfer wird die...

cookies.

Mit dem Fortsetzen des Besuchs dieser Website akzeptieren Sie die Verwendung von Cookies.

Für mehr Informationen und zur Änderungen der Cookie-Einstellungen auf Ihrem Computer, lesen Sie bitte Privacy Policy.

Schließen

Cookie Information schließen