Passer au contenu

Du Big Data au Right Data : les plateformes à l’heure de l’écoresponsabilité

Nicolas Claudon & Nicolas Ydder
4 septembre 2023

Maîtriser son patrimoine de données, c’est aussi limiter son expansion débridée.

À rebours d’une culture de l’accumulation à tous points de vue insoutenable, il faut adopter une approche plus sélective. Bonne pour l’environnement, cette frugalité l’est aussi pour l’entreprise.

En matière de données, on a longtemps considéré que plus on en collectait, mieux on se portait. Après tout, cela pouvait toujours servir. Et avec l’essor du Big Data et du cloud, on n’avait aucune raison de se limiter puisque les infrastructures pouvaient supporter sans sourciller des volumes gigantesques. Cependant, on se rend de plus en plus compte que ces masses de données, qui peuvent se chiffrer en pétaoctets, sont rarement utiles, voire contre-productives tant il devient rapidement impossible de s’y repérer. Résultat : 80 % des données ne sont pas utilisées [1], et ont peu de chances de l’être un jour.

Or, même inutilisées, ces données nécessitent des transferts, des manipulations, des traitements, de l’espace de stockage, des mesures de sécurité… Et comme tout cela se passe à très, très grande échelle, l’empreinte environnementale qui en résulte est loin d’être négligeable. À titre d’exemple, au sein de l’Union européenne, les datacenters représentaient déjà 2,7 % de la demande d’électricité en 2018 et ce chiffre atteindra 3,21 % en 2030 si la trajectoire actuelle se poursuit [2]. Au moment où l’IT est pointée du doigt pour son impact écologique grandissant, lutter contre cette infobésité, aussi inutile que nuisible, et adopter une politique de frugalité des données, apparaît comme un axe prioritaire en matière d’éco-responsabilité.

Un enjeu culturel et stratégique

Réduire la quantité de données, c’est avant tout rompre avec l’habitude et la facilité qui consistent à tout conserver. Du Big Data exhaustif, il faut passer au Right Data : privilégier la qualité à la quantité en ne collectant et conservant que ce qui est vraiment utile. Mais choisir, trier, sélectionner, c’est un effort et un changement, donc avant tout un enjeu culturel. Il faut faire prendre conscience à tous les acteurs concernés qu’en dépit de son caractère « immatériel », l’accumulation de la donnée est un gaspillage préjudiciable à l’entreprise et à l’environnement. Et qu’il appartient à chacun d’œuvrer pour le réduire : à l’IT, chargée des infrastructures ; à l’organisation data, chargée du patrimoine de données et de sa mise en valeur ; aux métiers, qui sont les seuls à pouvoir évaluer la valeur de chaque donnée et donc l’intérêt ou non de la posséder.

Une nécessaire gouvernance

D’un principe, la frugalité des données devient donc un objectif commun. Cependant, tout le monde n’aura pas le même point de vue sur ce qu’il faut conserver, à quelles fins et dans quelles conditions. Il est donc nécessaire de mettre en place une gouvernance pour définir une politique, des lignes de conduite, des rôles, et arbitrer les différences d’appréciation. L’instance de gouvernance pourra être épaulée, au niveau technique, par une Design Authority, équipe composée par des architectes et des décideurs métier qui édictera des règles, pilotera leur déploiement et veillera à leur application rigoureuse et homogène.

Une des raisons de l’inflation galopante des données est que personne n’est aujourd’hui responsable d’en maîtriser les volumes. Dans le cadre de la gouvernance, il est donc capital que quelqu’un endosse ce rôle. Il lui appartiendra de s’assurer que la donnée consommée aura l’impact business optimal en fonction de son empreinte environnementale, voire de mettre son veto si cette dernière apparaissait démesurée au regard des bénéfices envisagés. Pour prendre de telles décisions, il conviendra de mettre en place des indicateurs plus fins que le volume des données et leur coût de stockage. Quant au pilotage, il s’effectuera de préférence au niveau des portefeuilles de projets afin de tenir compte de l’hétérogénéité des situations.

« En incitant à s’interroger en permanence sur le sens et l’utilité de ce que l’on collecte, une politique de frugalité renforce la maîtrise du patrimoine de données, ce qui contribue aussi à réduire les coûts et les risques associés. »

Des mesures opérationnelles

Concrètement, la frugalité des données passe par un certain nombre de mesures opérationnelles dont beaucoup peuvent commencer à être mises en œuvre sans attendre que soit posé le cadre de gouvernance. Ces actions sont la priorité pour obtenir des premiers gains significatifs et amorcer un changement de perception :

  • Le stockage : de nombreuses données ne prêtent pas à débat et pourraient être rationalisées en tirant simplement parti des fonctionnalités des plateformes comme la déduplication pour optimiser les dispositifs de stockage, avec des retours positifs en lien avec l’approche Finops.
  • L’accès : autre axe prioritaire et relativement facile à mettre en place, la différenciation du mode de stockage au fil du cycle de vie des données avec des accès « chauds » pour les données les plus immédiatement nécessaires, « tièdes » pour les analyses et les reportings moins fréquents, puis de l’archivage de précaution, « froid », et enfin de l’archivage à fins purement historiques, sur bande.
  • La forme : au niveau de l’infrastructure de données, la DSI dispose également de plusieurs leviers techniques pour limiter les volumes comme la compression (à condition que les gains ne soient pas absorbés par des décompressions trop fréquentes), la sérialisation binaire (optimisation du stockage de l’objet) et la virtualisation des données (pour éviter des réplications superflues).

Adopter l’approche du cycle de vie

Toutefois, le changement le plus important doit intervenir au niveau des projets et des produits data, où l’on doit désormais se focaliser sur l’information, sur ce que l’on a besoin de savoir et non sur les données qui permettent de le savoir.

De cette manière, on pourra faire, tout au long du cycle de vie, des choix économes en données sans que ce soit au détriment des résultats métier : utiliser, s’il en existe, des données tierces plutôt que collecter et posséder les siennes ; filtrer les données à la source et les prétraiter pour ne remonter que ce qui a du sens (edge computing) ; choisir des algorithmes pré-entraînés ou peu gourmands en données (few-shot learning, zero-shot learning) ; déterminer le seuil de précision/pertinence juste nécessaire et ne pas prolonger les calculs au-delà ; ne conserver que les résultats et pas les données brutes qui ont permis de les obtenir (ou bien n’en conserver que des échantillons représentatifs) ; se contenter, quand c’est possible et pertinent, de résultats agrégés, de moyennes, plutôt que des chiffres détaillés… À noter que toutes ces mesures devront être documentées et traçables au cas où l’on pourrait avoir à rendre compte des divers tris et suppressions réalisés.

Si elles coordonnent leurs efforts, les organisations métiers, IT et data disposent donc de très nombreux leviers pour réduire les volumes de données et leur empreinte environnementale. Surtout, en prenant le réflexe de s’interroger en permanence sur le sens et l’utilité de ce que l’on collecte, cette politique de frugalité renforce la maîtrise du patrimoine de données, ce qui, par ricochet, contribue à réduire les coûts et les risques associés. Pour l’heure, aucune réglementation n’oblige à modérer ses quantités de données, mais les entreprises auraient, à tous points de vue, le plus grand intérêt à l’anticiper.

La frugalité des données est donc une préoccupation transverse. Elle dépasse par conséquent le cadre du seul Green IT pour s’inscrire dans celui, plus large, de la stratégie RSE de l’entreprise tout en recoupant les transformations en cours vers une organisation davantage fondée sur la data. Aussi, le changement doit être porté et impulsé au plus haut niveau, et figurer parmi les objectifs stratégiques en matière d’environnement.

À retenir

  1. Les masses de données conservées « au cas où » sont rapidement inutilisables tout en occasionnant une empreinte environnementale considérable.
  2. Une politique plus frugale repose sur une gouvernance transverse, car les points de vue diffèrent sur les données à collecter et conserver impérativement.
  3. De très nombreux leviers techniques et opérationnels tout au long du cycle de vie des données offrent des gains rapides et significatifs.

Auteurs :

Nicolas Claudon

CTO Insights & Data France

Nicolas Ydder

Managing Data Architect
Fort d’une expertise de plusieurs années dans le domaine du Big Data et du machine learning, Nicolas accompagne conseille les clients du Groupe sur les enjeux de la gestion de données dans des environnements complexes. Il travaille sur la mise en application des solutions de demain aux besoins d’aujourd’hui. Avec une expérience à la fois dans des domaines industriels et de services, Nicolas guide les projets d’intelligence artificielle et Big data des DSI en valorisant la vision métier.
    Pour aller plus loin

      Livre blanc : démocratiser la donnée pour créer de la valeur

      Les clés de la révolution data-centric

      Data et intelligence artificielle

      Maîtrisez vos données et transformez votre organisation.