Zum Inhalt gehen

Value from Data: Steigerung der operativen Exzellenz durch ‚Analytical Data Quality Management‘

Dr. Katja Tiefenbacher
04. Mai 2020
capgemini-invent
ide-value-capgemini-invent

Capgemini Invent adressiert die CxO Daten-Strategie und unterstützt seine Kunden bei der datengetriebenen Wertschöpfung.

Mit unseren Offerings rund um #valuefromdata zeigen wir Ihnen, wie Sie Ihre Daten so managen, dass Sie deren volles Potential ausschöpfen. So maximieren Sie den Wert, den Sie mit Ihren Daten generieren.

Eine gute Datenqualität ist branchenübergreifend unerlässlich geworden, da sie Unternehmen dabei unterstützt, produktiv und innovativ zu sein um gleichzeitig Datenschutzstandards und gesetzliche Anforderungen erfüllen zu können. Dies gilt insbesondere für das Bankwesen, wo ein starker Wettbewerb die Banken dazu zwingt, sich schnell neu zu erfinden und gleichzeitig die sich ständig verschärfenden Vorschriften wie TRIM, DSGVO oder BCBS239 einzuhalten. Aus diesen Gründen ist die Einführung eines starken Datenqualitätsmanagements (DQM) für Banken wichtiger denn je geworden. Nicht zuletzt wird diese Tatsache durch die Einführung dedizierter organisatorischer Rollen, wie die eines Chief Data Officers (CDO) oder Data Stewards, unterstrichen.

Das traditionelle Datenqualitätsmanagement wird üblicherweise als Gate zwischen den Rohdaten verschiedener Systeme und den Endnutzern der Daten eingerichtet. Diese Gates wenden eine Reihe von halbautomatischen Regeln an, um die Datenqualität zu überwachen und Datenpunkte zu kennzeichnen, die gegen diese Regeln verstoßen. Mitarbeiter, die für die Datenqualität verantwortlich sind, können diese Ausnahmen dann bei Bedarf korrigieren und die jeweiligen Quellsysteme und Transformationsprozesse untersuchen, um die zugrunde liegende Ursache des Problems zu ermitteln. Dieser reaktive Ansatz hat jedoch die Grenzen seiner Möglichkeiten erreicht, weil die Komplexität der Daten durch neue Quellen und stetig steigende Volumen erhöht worden ist. Darüber hinaus erfordern die Aufsichtsbehörden ein detaillierteres Reporting zur Überwachung der Datenqualität von Banken, die ansonsten mit erheblichen Geldbußen konfrontiert werden. Diese Entwicklungen erfordern einen proaktiveren Ansatz für das Datenqualitätsmanagement, der nicht nur das Endergebnis des Datenentstehungsprozesses überwacht, sondern auch die Beziehungen zwischen Systemen, Prozessen und Menschen in der Datenverarbeitung miteinbezieht.

Analytical Data Quality Management nutzt Algorithmen des maschinellen Lernens, um die Datenqualität zu verbessern und den manuellen Aufwand zu reduzieren

Der erwähnte Anstieg des Datenvolumens hat den Vorteil, dass die Anwendung von Algorithmen des maschinellen Lernens (ML) für DQM erlaubt wird. Dieser neue Ansatz, den wir als Analytical Data Quality Management (ADQM) bezeichnen, verwendet diese Algorithmen, um die Einschränkungen des herkömmlichen DQM zu beheben und den manuellen Aufwand zu verringern.

Wir unterscheiden zwei Haupttypen von Datenqualitätsproblemen, die über ADQM erkannt und gelöst werden können: bekannte und unbekannte Datenqualitätsprobleme. Ersteres umfasst alle Fälle, in denen Datenqualitätsprobleme bereits von den vorhandenen Systemen gemeldet werden. Die ML-Methoden analysieren diese Probleme dann, um festzustellen, wie sie ursprünglich überhaupt zustande gekommen sind. Auf diese Weise können die Hauptursachen (Root Causes) der Probleme proaktiv behoben werden, anstatt die Fehler nur reaktiv zu beheben, nachdem bereits nachgelagerte Prozessfehler verursacht wurden.

Der zweite Fall betrifft Datenqualitätsprobleme, die von den vorhandenen traditionellen Systemen bisher nicht erkannt werden konnten. Dies erweitert die Funktionen des Datenqualitätsmanagements und reduziert den Aufwand für die manuelle Identifizierung dieser Probleme. Die folgenden Abschnitte enthalten eine detaillierte Erläuterung unserer Methodik und veranschaulichen die betrieblichen Auswirkungen auf Basis von kürzlich durchgeführten Projekten bei unseren Kunden.

Die Anwendung einer Root Cause Analysis erlaubt es mit DQM nicht nur reaktive, sondern vielmehr auch proaktive Maßnahmen zu treffen

Eine Root Cause Analysis ist ein statistisches Modell, das eine breitere Perspektive auf Datenqualitätsprobleme ermöglicht, indem nach signifikanten Einflussfaktoren gefiltert wird. Das Modell findet Datenqualitätsprobleme auf mehrdimensionalen Ebenen. Mithilfe interpretierbarer Methoden des superverised Learnings (z.B. regularized regression oder random forests) ermöglicht dieser Ansatz die Untersuchung der tatsächlichen Ursachen von Datenqualitätsproblemen. Zunächst werden Muster in den Symptomen identifiziert, indem ein bestmöglich passender Separator zur Unterscheidung zwischen validen und fehlerhaften Datenpunkten identifiziert wird. Die Interpretation von partiellen Abhängigkeitsdiagrammen und Modellkoeffizienten dient dazu, die Kausalitäten zwischen der abhängigen und den unabhängigen Variablen abzuschätzen. ADQM untersucht demnach nicht nur korrelierende Ereignisse, sondern analysiert die wahren Einflussfaktoren von Datenqualitätsproblemen. In diesem Sinne wird das zugrunde liegende Problem im Zusammenspiel von Quellsystemen, Datentransformationsprozessen und menschlicher Interaktion tiefergehend untersucht. Schließlich werden die kritischen Einflussfaktoren spezifiziert, sodass es Unternehmen ermöglicht wird, nachhaltig wirksame Maßnahmen zu ergreifen und Probleme mit der Datenqualität vorbeugend zu mindern, bevor sie nachgelagerte Prozessunterbrechungen oder -ausfälle verursachen können.

Für eine internationale Bank haben wir die Root Cause Analysis verwendet, um zu verstehen, wodurch bereits bekannte Datenfehler wie Duplikate, fehlende Werte oder Inkonsistenzen in verteilten Datenbanksystemen erzeugt wurden. Durch die Verbindung mehrerer Datenquellen und die Bereitstellung statistischer Modelle für die Root Cause Analysis konnten wir mehr als 50% der Zeit sparen, die stattdessen für manuelle Prozesse erforderlich gewesen wäre, um den Ursachen der Datenqualitätsprobleme auf den Grund zu gehen.

analyseansatz-root-causes-capgemini-invent
Abbildung 1: Unser Analyseansatz, um von Symptomen hin zu den tatsächlichen Root Causes zu gelangen

Modelle zur Erkennung von Anomalien decken auf Basis von Mustern in historischen Daten bisher unbekannte Datenqualitätsprobleme auf

Bei unbekannten Datenqualitätsproblemen sind Modelle zur Identifizierung von Anomalien das geeignete Werkzeug. Die Modelle analysieren historische Datenmuster und erkennen dadurch, wann eine neue Dateneingabe stark von dem erwarteten Datensatz abweicht. Eine besonders leistungsstarke Methode ist die sogenannten Autoencoder. Ein Autoencoder besteht aus zwei verketteten neuronalen Netzen. Dabei nimmt das erste die hochdimensionalen historischen Eingangsdaten und komprimiert diese im Sinne einer Dimensionsreduktion. Dies hat zur Folge, dass das Netzwerk dadurch gezwungen wird, typische Datenmuster zu lernen. Dann decodiert das zweite Netzwerk die Daten wiederum und überführt die komprimierten Daten zurück in die ursprüngliche Dimension. Hierdurch erzeugt das Netz mit den Ausgangsdaten eine Rekonstruktion der Originaldaten. Wenn diese Darstellung stark von den Originaldaten abweicht, deutet dies darauf hin, dass die Originaldaten eine Anomalie und somit ein potenzielles Datenqualitätsproblem darstellen.

autoencoder-capgemini-invent
Abbildung 2: Ein Autoencoder ermöglicht die Rekonstruktion von Daten zur Identifizierung von Anomalien

Eine wichtige Anwendungsmöglichkeit für Autoencoder ist die Überwachung von Transaktionen im Finanzsektor. Vor dem Hintergrund strenger werdender Vorschriften zur Aufdeckung von Betrug und zur Bekämpfung von Geldwäsche haben wir Autoencoder bei einer globalen Bank verwendet, um verdächtige Finanztransaktionen zu identifizieren. Hierbei ermöglichten unsere implementierten Algorithmen die Erkennung von Anomalien in großen Datenströmen (mehr als 250.000 Transaktionen täglich) ohne dabei auf bereits identifizierte Betrugsfälle trainiert worden zu sein.

ADQM bietet tiefere Erkenntnisse über Datenqualitätsprobleme, automatisiert manuelle Prozesse und schafft so einen messbaren Geschäftswert

Für Branchen, in denen Datenqualität von entscheidender Bedeutung ist, ist ADQM der logische nächste Schritt auf dem Weg zu operativer Exzellenz. Während die Root Cause Analysis eine proaktive Untersuchung von Datenqualitätsproblemen erlaubt, verbessern und automatisieren Anomalieerkennungsmodelle Prozesse, was mit erheblichen Kosteneinsparungen und Risikominderungen einhergeht. Um diese Vorteile zu realisieren, sollten CDOs und für Datenqualität verantwortliche Abteilungen einen dreistufigen Ansatz verfolgen:

  1. Stellen Sie sicher, dass Ihr Unternehmen die technischen und organisatorischen Anforderungen für ADQM erfüllt
  2. Entwickeln Sie Prototypen, um den Business Case zu validieren
  3. Skalieren Sie die Lösungen im gesamten Unternehmen

Im ersten Schritt wird eine Status-Quo-Analyse entlang der drei Dimensionen, Datenqualitätsprozesse, Infrastruktur und organisatorische Fähigkeiten, durchgeführt. Im Rahmen der Datenqualitätsdimension identifiziert das Unternehmen Prozesse und Datensätze, die mit ADQM-Methoden analysiert werden können. Darüber hinaus sollte überprüft werden, inwieweit die technische Infrastruktur ausreicht, um das erwartete Datenvolumen zu bewältigen, und ob ein Team verfügbar ist, das analytische Fähigkeiten mit Branchenerfahrung kombiniert.

Zweitens führt das Team einen Proof of Concept mit realen Daten durch und validiert den Business Case für das Management. Beispielsweise können mit einem A/B-Test die Genauigkeit, Geschwindigkeit und Kosten eines Anomalieerkennungsmodells im Vergleich zu aktuellen Prozessen bewertet werden. Sobald der Geschäftswert von ADQM bewiesen ist, sollten die Lösungen und entwickelten Fähigkeiten unternehmensweit skaliert werden, um den geschaffenen Wert zu maximieren.

Aufgrund unserer praktischen Erfahrung mit ADQM bei Kunden aus dem Bankwesen und anderen Branchen kann Capgemini Invent Ihren Übergang zum Analytics-getriebenen DQM von der Status-Quo-Analyse bis zur Skalierung der Lösungen unterstützen. Wenn Sie das Potenzial von ADQM für Ihr Unternehmen besprechen möchten oder an einer Vorstellung unseres Lösungsportfolios interessiert sind, wenden Sie sich bitte an Dr. Katja Tiefenbacher.

Vielen Dank an den Co-Autor Sebastian Dierdorf.

Mehr Informationen zur Capgemini Invent’s Services aus dem Bereich Inventive Finance Risk & Compliance finden Sie hier.

Blog-Updates per Mail?

Abonnieren Sie unseren Newsletter und erhalten Sie alle zwei Monate eine Auswahl der besten Blogartikel.

Autorin

Dr. Katja Tiefenbacher

Senior Director | Head of Data Strategy & AI Operating Models, Capgemini Invent
Dr. Katja Tiefenbacher ist Direktorin bei Capgemini Invent und Leiterin des Teams Data Strategy und AI Operating Models. Seit über 13 Jahren berät sie Kunden branchenübergreifend in den Sektoren Automotive, Public, Retail und Financial Services. Zu ihren Themenschwerpunkten zählen die Erarbeitung von Datenstrategien von der Definition bis zur Umsetzung, das Design von Informationsarchitekturen sowie die Etablierung von Data-Governance-Strukturen und Analytics-Betriebsmodellen.

    Weitere Blogposts

    Daten & Künstliche Intelligenz

    Der EU Data Act: Nicht nur Obligation sondern Chance für eine datengetriebene Zukunft

    Lukas Schröder
    24. Apr. 2024
    Daten & Künstliche Intelligenz

    Künstliche Intelligenz und Finanzkriminalität – Teil 1

    Crispijn Groeneveld
    16. Jan. 2024