Le Data Steward, un Sisyphe des temps modernes ?

Publish date:

Cet article aborde le thème de la déduplication des données référentielles.

La qualité de données est au cœur des préoccupations des organisations. Avoir une donnée de qualité offre de nombreux avantages : mieux connaître ses clients, prendre les bonnes décisions, réduire le cycle de développement d’un nouveau produit, être conforme aux réglementations, monétiser l’information, etc.

Gartner estimait en 2017, que l’impact de la non-qualité de données pour une grande organisation était en moyenne de 15 millions de dollars par an.

Pour assurer la maîtrise et la qualité de leurs données les plus critiques, les organisations mettent en place une gestion des données référentielles (données maîtres). Il s’agit la plupart du temps de centraliser le fichier client ou encore le catalogue produit dans un endroit unique. Cela permet de faciliter les opérations sur les données référentielles (cycle de vie, qualité, synchronisation).

La qualité des données référentielles est alors prise en charge par des Data Stewards. Ces acteurs doivent réaliser les actions qui permettent de maintenir le niveau de qualité des données référentielles.

Les Data Stewards doivent prendre des décisions d’arbitrages sur les enregistrements suspectés d’être des doublons (ce qui est particulièrement vrai pour les données référentielles portant sur les personnes physiques ou morales, du fait des multiples points de saisies).
Par exemple, l’enregistrement « Jean Dupont domicilié au 1 rue de la République à Lille » est-il un doublon avec l’enregistrement « Jean Dupond domicilié au 1bis rue de la République à Lille » ?

Si un Data Steward n’a pas la capacité à absorber le flux de demandes d’arbitrages qui lui arrive, sa pile de « décisions en attente » va croître sans cesse. Il va littéralement « crouler sous les demandes » avec une démultiplication des impacts (ex : retards dans les processus, pertes de revenus, …).

Le Data Steward est-il alors condamné à être un Sisyphe des temps modernes ?

Pas forcément. Examinons la gestion des arbitrages avec le schéma ci-dessous :

data steward

Dans la situation présentée, la pile de décisions en attente à T1 est plus grande que la pile à T0. Si l’on met en équation, on a la formule suivante :

Pile de décisions en attente [T1] = Pile de décisions en attente [T0] + Nouvelles décisions entrantes [T0;T1] – (Fusionnés(Y) [T1] + Fusionnées(N) [T1])

Pour réduire la taille de la pile de « décisions à prendre » en T1, on dispose donc de 2 leviers :

  • Réduire le nombre de nouvelles décisions arrivantes aux Data Stewards
  • Augmenter le nombre d’arbitrages réalisés par les Data Stewards

 

Comment réduire le nombre de nouvelles décisions arrivantes aux Data Stewards ?

  • Mettre en place des fonctionnalités d’auto-complétion (ex : de l’adresse postale) et d’enrichissement de données (ex : DUNs) dans les systèmes « Points de saisie » pour qu’il y ait plus d’arbitrages pris en charge par les règles automatiques
  • Mettre en place la fonctionnalité de « Search before Create » dans les systèmes « Points de saisie » pour éviter de créer des doublons à la création. Autrement dit, quand je créé un client dans l’outil CRM, je suis assisté pour vérifier que le client n’existe pas déjà dans la base CRM ou dans la base référentielle MDM
  • Réduire les délais d’interconnexion entre les systèmes du SI et le référentiel de données. Aller vers le « temps réel » pour publier au plus vite les enregistrements certifiés (golden records) et ainsi éviter la création de doublons dans les systèmes « Points de saisie »

 

Comment augmenter le nombre d’arbitrages/fusions réalisés par les Data Stewards ?

  • Augmenter le nombre de Data Stewards. Mais cette mesure à un coût
  • Mutualiser les capacités des Data Stewards. Le Data Steward qui a une pile vide peut aider à décharger la pile d’un autre Data Steward. Cela n’est pas forcément évident à mettre en place si les Data Stewards sont sur des segments assez indépendants (ex : Data Stewards par pays)
  • Mettre en place une task force pour une action ponctuelle de purge de la pile (variante de l’action précédente mais non-pérenne)
  • Réduire les délais d’interconnexion entre les systèmes du SI et le référentiel de données. Aller vers le « temps réel » pour que le Data Steward maitrise mieux les fluctuations du nombre de demandes d’arbitrages arrivantes
  • Mettre en place la fonctionnalité « d’orchestration » de fusion de doublons. Il s’agit de répercuter les actions de fusions réalisées au niveau du référentiel de données dans les systèmes du SI par appel à l’API de fusion de chacun des systèmes. Le Data Steward n’a alors plus besoin de répercuter manuellement les arbitrages / fusions dans chacun des systèmes du SI
Cookies

En continuant à naviguer sur le site web, vous acceptez l'utilisation des cookies

Pour changer la configuration des cookies sur votre ordinateur ou obtenir davantage d’information, veuillez consulter la page Données personnelles

Fermer

Fermer les informations cookies