Exploitation des données de santé

Sonia Gorjup-Gatti & Yolande Chavane

23 septembre 2022

Tous les acteurs de la santé, des fournisseurs de soins aux groupes pharmaceutiques, en passant par les fabricants de dispositifs médicaux, les assureurs et même les institutions, adaptent leur stratégie pour faire des données de santé un des piliers de leur développement.

Certains disent même que “La donnée constitue le cœur de l’exercice de la médecine dans son rapport avec le patient.

Il n’est donc pas surprenant, dans le cadre d’une numérisation globale de l’ensemble de la pratique médicale et de l’utilisation de capteurs de plus en plus nombreux et variés, d’assister à une augmentation exponentielle de la quantité et de la diversité des données disponibles” . La pandémie de COVID-19 a par ailleurs souligné la nécessité de disposer de données de haute qualité. Le domaine de la santé ne fait pas exception à l’explosion de données créées au niveau mondial : 33 Zb en 2018, près de 2 142 Zb en 2035. Cumulée à la montée en puissance de nouvelles technologies telles que l’intelligence artificielle, la donnée de santé est aujourd’hui un trésor mondialement convoité.

La chaîne d’exploitation de la donnée

Nous constatons aujourd’hui que chaque étape de la chaîne d’exploitation de la donnée fait face à des enjeux majeurs, tant du point de vue de la collecte, la sécurisation, le partage ou encore la valorisation des données.

1. La collecte des données

S’appuyer sur l’IA pour dépasser la disparité des données et constituer des bases riches

En France, les données peuvent être générées par de nombreux acteurs : hôpitaux, médecin de ville, patient lui-même, parfois de manière non structurée et non complète (saisie manuelle, dictée vocale, captée par des objets IoT ou medical devices) et sont donc de qualité inégale. Ces différentes sources vont produire des bases médico administratives comme le Sniiram et ses 8,9 milliards de feuilles de soins, de bases d’images des 80 millions d’actes d’imagerie effectués chaque année, de registres, de dossiers médicaux, d’essais cliniques, sans parler des données patients collectées via les smartphones, les réseaux sociaux et les sites internet… Recueillies pour des usages bien spécifiques (diagnostiquer une maladie, détecter une mutation particulière dans le génome, rembourser des soins, mesurer l’activité physique, etc.), elles sont disparates et d’une grande diversité de formats. L’intelligence artificielle (IA) vient bouleverser la donne en cherchant à exploiter toutes ces données dans l’objectif de faire progresser la recherche, les soins et l’innovation en santé .

Massifier le croisement des données pour alimenter les dispositifs d’IA

Etant donné qu’il faut près de 100 000 images pour que les algorithmes de IA puissent apprendre à détecter un mélanome et poser un diagnostic sûr, il est évident qu’un hôpital seul ne peut collecter le nombre de données nécessaires ; les producteurs de données doivent donc s’associer pour collecter, échanger, partager leurs données. Il faut aussi s’assurer de pouvoir disposer de données “propres”, rangées et bien étiquetées.

2. Le partage des données

Se servir des entrepôts de donnée de santé locaux afin d’homogénéiser et exploiter les données

Ne serait-ce qu’en interne des organisations de santé, le partage et la circulation de la donnée sont rendus complexes par la multiplicité des applicatifs et leur manque d’interopérabilité. L’exemple des établissements sanitaires qui comptent une à plusieurs centaines d’applicatifs dans leur système d’information est très représentatif : le manque d’interopérabilité de ces applicatifs nécessite la mise en place de nombreux connecteurs, souvent développés ad hoc pour l’établissement. Ce manque d’interopérabilité est un frein à l’exploitation des données de santé. Pour y pallier, de nombreux entrepôts de données de santé (EDS) centralisant les données dans un format exploitable voient le jour dans les hôpitaux ou dans des regroupements d’établissements sanitaires : l’entrepôt de l’AP-HP , l’entrepôt HUGO pour les CHU du Grand Ouest ou encore INCLUDE au CHU de Lille .

Développer des standards d’échange afin de renforcer l’interopérabilité entre les structures

De façon générale, la multiplicité des encodages et des structures de données rendent également le partage de données de santé très complexe. Nous observons l’accélération du développement de normes d’interopérabilité tels que FHIR (Fast Healthcare Interoperability Resources) par l’organisation HL7 et un effort appuyé du collectif Interop’Santé afin de décliner ces normes au niveau français. La France mise également sur de grands programmes d’investissement, tels que le Ségur de la santé , pour donner les moyens à l’ensemble de l’écosystème d’adopter ces standards.

Mettre en place une gouvernance de la donnée pérenne

Un point de fragilité observé sur de nombreux projets impliquant des données de santé est la gouvernance de la donnée. De nombreux acteurs sont impliqués dans la chaîne de collecte et d’exploitation de la donnée, du personnel médical ou de l’attaché de recherche clinique au financeur, en passant par le délégué à la protection des données personnelles. Il convient alors de mettre en place une gouvernance couvrant toutes les dimensions de l’exploitation de données de santé : scientifique, éthique, juridique et financière. La gouvernance est encore plus complexe lorsque la donnée est collectée par plusieurs équipes. La technologie émergeante du federated learning, qui permet d’entrainer des algorithmes d’intelligence artificielle sur des bases de données réparties dans différentes structures, a l’avantage de l’exploitation de donnée massive tout en laissant chaque équipe maîtresse des données qu’elle a collectées.

3. La sécurisation des données

La facilitation du partage de la donnée de santé grâce au développement des outils numériques appelle à des mesures renforcées concernant la protection de ces données hautement sensibles. Cela repose principalement sur deux piliers : la sécurité des systèmes d’information d’une part et les mesures de confidentialité d’autre part.

Renforcer la sécurité des systèmes d’information en réponse à l’augmentation des cyberattaques

Les hôpitaux ont connu 27 cyberattaques en 2020. Le 17 février 2021, Cédric O, secrétaire d’État à la transition numérique, affirmait lors d’une séance de questions au gouvernement qu’il y en avait « une par semaine depuis 2021 », dont certaines très médiatisées telles que celles de Dax et de Villefranche-sur-Saône.

Bien que les technologies de sécurisation des systèmes d’information aient connu un fort essor ces dernières années (développement de protocoles d’identification et d’authentification multi-facteurs, chiffrement à tous les niveaux – objet, stockage et couches de transport – avec des tailles et des complexités de clés qui croissent sans cesse, filtrage des adresses IP de connexion, etc.), la santé connaît un retard important dans ce domaine. Ce retard s’explique par deux causes racines :

Le manque de sensibilité des professionnels de santé à la cybersécurité ;
La rareté des moyens affectés à la cybersécurité. Pour rappel, les établissements sanitaires consacrent en moyenne 2,7% de leurs dépenses à leur système d’information alors que les entreprises privées y consacrent en moyenne 4,7% de leurs dépenses .

Trouver l’équilibre entre l’enjeu de non-réidentification des données et le besoin de personnalisation des soins

La limitation du risque de réidentification grâce à la pseudonymisation voire à l’anonymisation des données est très délicate. Les textes législatifs demandent à la fois d’empêcher toute réidentification du patient et en même temps d’avoir la possibilité de remonter à l’identité du patient dans le cas où l’analyse des données ferait ressortir des facteurs de risques médicaux pour le patient. Un moyen de gérer ces besoins antagonistes est de stocker les tables de correspondances permettant de remonter à l’identité à part, avec toutes les mesures de sécurité adéquates. Les technologies de chiffrement homomorphe semblent également une piste intéressante, bien que ces technologies requièrent encore des développements pour être opérationnels dans les environnements de production.

Ces bonnes pratiques viennent s’ajouter aux autres mesures de confidentialité de respect des droits du patient et d’habilitation d’accès à la donnée.

Conscients de ces enjeux, les RSSI (Responsable de Sécurité des Systèmes d’Information) des établissements sanitaires mettent en place des projets tel que Safecare et plébiscitent une labellisation des systèmes d’information hospitaliers en matière de sécurité.

4. La valorisation des données

Répondre au besoin de valorisation scientifique des bases de données à travers l’émergence de règles telles que la citation des bases ou la cosignature des publications

Afin de valoriser l’utilisation d’une base dans une publication, un DOI peut être attribué à chaque base de données. Un DOI, ou « Digital Object Identifyer » est un identifiant unique et pérenne, sous la forme de lien https. Ils permettent de tracer des schémas relationnels entre les financements, bases de données et publication permettant ainsi de suivre l’utilisation des bases.

De plus, il est possible de protéger la compétitivité académique des producteurs de données partageant leur base en leur laissant la possibilité d’être partie prenante de la publication en tant que co-auteur. Pour ce faire, un système de citation groupée peut être mis en place, c’est à dire un nom de groupe qui sera répertorié comme auteur dans la liste des auteurs d’une publication. Il peut rendre possible le fait d’exercer un droit de retrait en tant qu’auteur sur la publication en cas de désaccord avec les résultats, ou de bénéficier de points Sigaps au moment de la publication, valorisant ainsi le responsable de donnée d’un point de vue scientifique.

Définir les critères différenciants les conditions économiques d’accès aux données de santé

Aucune donnée de santé ne peut être vendue, mais il est possible de tarifer les services liés à la mise à disposition de données en reversant au responsable de données une quote-part permettant de couvrir une partie de l’effort consenti pour la collecte, la mise en forme, la mise en qualité, la standardisation et la documentation de la base initiale.

De plus, un partage de la valeur créée peut être envisagé si le producteur de données apporte une contribution matérielle, humaine ou financière au traitement (hors service d’accès à des données déjà produites par ailleurs), ou si le produit du traitement fait l’objet d’une commercialisation.

La valorisation économique de l’accès aux données de santé doit se faire dans une logique de différentiation selon la nature du demandeur : là où la gratuité est de mise pour les opérateurs publics ou assimilés souhaitant réaliser des traitements à des fins de recherche publique, il peut y avoir un système de facturation pour des acteurs privés. Un régime dérogatoire pour les start-ups bénéficiant d’aides d’Etat ou les entreprises de R&D peut également être envisagé.

De plus, certains experts proposent de « tokeniser » les données afin d’inciter financièrement les patients à partager leurs données tout en contrôlant à qui ils les partagent et pour quel usage. Utiliser la technologie de la blockchain pourrait faciliter la création d’une marketplace de la donnée de santé décentralisée, remettant le patient au centre du partage de la donnée le concernant. Attention cependant aux effets néfastes que la massification de l’utilisation de la blockchain pourrait avoir, notamment en termes environnementaux.

Conclusion

Nous avons la chance de disposer en France d’un patrimoine de données de santé probablement sans équivalent dans le monde. Ce patrimoine doit aujourd’hui être enrichi et doit faire l’objet d’un travail d’interopérabilité, de standardisation, et de partage sécurisé afin de permettre l’émergence de nouveaux usages innovants, au service des professionnels de santé et des patients. Ces travaux seront déterminants pour permettre à la France de se distinguer sur le plan international et de se positionner comme un leader de l’IA et des données dans le domaine de la santé.

Autrices

Sonia est experte des enjeux d’innovation et d’impact des nouvelles technologies en santé. Elle accompagne la transformation d’acteurs publics et privés dans la mise en œuvre de projets data, IA, et d’interopérabilité, et anime la création d’écosystèmes d’innovation autour de la santé numérique. Elle enseigne depuis près de 10 ans à l’Institut d’Etudes Politiques de Paris.

De formation ingénieur, Yolande intervient depuis 2015 auprès des différents acteurs de l’écosystème de santé : ministère, opérateurs nationaux et institutions, ARS et CHU. Avec un fort tropisme pour les sujets système d’information, données et intelligence artificielle, ses différentes expériences couvrent toutes les phases de production d’un outil numérique : conception, développement, déploiement et accompagnement au changement.

Pour aller plus loin

Secteur public

Le secteur public mène une transformation vers un futur qui sera résolument plus numérique et durable.

cloud

Equipe de direction

Intelligence artificielle

Exploitation des données de santé

Sonia Gorjup-Gatti & Yolande Chavane

23 septembre 2022

Tous les acteurs de la santé, des fournisseurs de soins aux groupes pharmaceutiques, en passant par les fabricants de dispositifs médicaux, les assureurs et même les institutions, adaptent leur stratégie pour faire des données de santé un des piliers de leur développement.

1. La collecte des données

S’appuyer sur l’IA pour dépasser la disparité des données et constituer des bases riches

Massifier le croisement des données pour alimenter les dispositifs d’IA

2. Le partage des données

Se servir des entrepôts de donnée de santé locaux afin d’homogénéiser et exploiter les données

Développer des standards d’échange afin de renforcer l’interopérabilité entre les structures

Mettre en place une gouvernance de la donnée pérenne

3. La sécurisation des données

Renforcer la sécurité des systèmes d’information en réponse à l’augmentation des cyberattaques

Trouver l’équilibre entre l’enjeu de non-réidentification des données et le besoin de personnalisation des soins

4. La valorisation des données

Répondre au besoin de valorisation scientifique des bases de données à travers l’émergence de règles telles que la citation des bases ou la cosignature des publications

Définir les critères différenciants les conditions économiques d’accès aux données de santé

Conclusion

Autrices

Secteur public

Le secteur public mène une transformation vers un futur qui sera résolument plus numérique et durable.

Related

cloud

Equipe de direction

Intelligence artificielle

Tous les acteurs de la santé, des fournisseurs de soins aux groupes pharmaceutiques, en passant par les fabricants de dispositifs médicaux, les assureurs et même les institutions, adaptent leur stratégie pour faire des données de santé un des piliers de leur développement.

1. La collecte des données

S’appuyer sur l’IA pour dépasser la disparité des données et constituer des bases riches

Massifier le croisement des données pour alimenter les dispositifs d’IA

2. Le partage des données

Se servir des entrepôts de donnée de santé locaux afin d’homogénéiser et exploiter les données

Développer des standards d’échange afin de renforcer l’interopérabilité entre les structures

Mettre en place une gouvernance de la donnée pérenne

3. La sécurisation des données

Renforcer la sécurité des systèmes d’information en réponse à l’augmentation des cyberattaques

Trouver l’équilibre entre l’enjeu de non-réidentification des données et le besoin de personnalisation des soins

4. La valorisation des données

Répondre au besoin de valorisation scientifique des bases de données à travers l’émergence de règles telles que la citation des bases ou la cosignature des publications

Définir les critères différenciants les conditions économiques d’accès aux données de santé

Conclusion

Autrices

Sonia Gorjup-Gatti

Director Secteur Public, Capgemini Invent

Yolande Chavane

Senior manager, Capgemini Invent

Secteur public

Le secteur public mène une transformation vers un futur qui sera résolument plus numérique et durable.

Related