Zum Inhalt gehen

Föderales Lernen: Dezentralisierung und KI als Chance für die Gesundheitsforschung

Jana Hapfelmeier
22. Mai 2023

Gesundheitsdaten bieten enormes Potential, um das Wohlbefinden und die Gesundheit unserer Gesellschaft zu fördern.

Aus den Datenmengen, die im Gesundheitswesen in zahlreichen Quellen vorliegen, könnten neue Erkenntnisse gewonnen, neue Therapieformen entwickelt oder mit Krankheiten verbundene Kosten gesenkt werden. Das Problem: Der Großteil der existierenden Daten kann zu diesem Zweck derzeit nicht verwendet werden – denn sie liegen unverbunden, fragmentiert und siloartig über verschiedene Versorgungsstrukturen, Gesundheitsanbieter, Forschungseinrichtungen und andere öffentliche und private Organisationen verteilt.

Dazu zählen etwa elektronische Gesundheitsakten, diagnostische Tests oder auch von Patienten genutzte Apps. Oft wäre es aus rechtlichen, ethischen oder praktischen Gründen auch gar nicht möglich, sie zentral zu sammeln und dann zusammen auszuwerten. Für Studien können Forscher daher auf diesen vorhandenen Datenschatz nicht zugreifen, sondern müssen relevante Informationen immer wieder neu erheben, zentral sammeln, speichern und auswerten.

Eine zentrale Datenerhebung und -auswertung in der Forschung hat natürlich auch Vorteile: Eine konsistente Datenerfassung über einheitliche Protokolle und Verfahren hilft, Inkonsistenzen und Fehler zu reduzieren. Zudem können Forscher und Ärzte aus verschiedenen Einrichtungen effektiver zusammenarbeiten und Informationen teilen. Nicht zuletzt lässt sich der Datenschutz über eine zentrale Stelle meist besser regeln, z.B. durch Pseudonymisierung und strenge Zugriffskontrollen.

Lassen sich dezentrale Datenquellen nutzen, ohne auf die Vorteile einer zentralen Auswertung zu verzichten? Mit der richtigen Technologie könnten tatsächlich neue Erkenntnisse gewonnen werden, die in Gesundheitsdaten in elektronischen Akten oder Apps schlummern – ohne Abstriche bei Datenschutz oder Erhebungsmethodik zu machen. Eine Lösung dafür bietet das föderale Analysieren: ein Prozess, bei dem die zu Grunde liegenden Daten bei der Analyse nicht an einem zentralen Ort gesammelt werden müssen, sondern an ihrem lokalen Speicherort bleiben. Eine wesentliche Chance des föderalen Analysen ist die Anwendung im KI-Bereich, bei dem auf den verteilten Datensätzen KI-Modelle trainiert werden – das föderale Lernen.

Föderales Lernen: Erstellung eines zentralen Modell auf der Basis dezentraler Daten

Das Prinzip des föderalen Lernens besteht darin, dass Daten auf verschiedene Standorte verteilt bleiben und auch während des Trainingsprozesse nicht an eine zentrale Stelle transferiert werden. Stattdessen werden Berechnungen jeweils lokal am Ort der Daten durchgeführt und nur Zwischenergebnisse weitergeleitet und diese zentral zum endgültigen Ergebnis verarbeitet. Wichtig ist dabei, dass diese Zwischenergebnisse anonym sind und nur aggregierte Werte beinhalten. Für diesen Prozess wird eine technische Infrastruktur benötigt – damit beschäftigen sich bereits einige Open-Source-Projekte (wie DataShield oder PySyft), die altbewährte statistische Verfahren und Algorithmen auf die neue Analysestruktur angepasst haben. Um dabei Datenschutz-Anforderungen zu entsprechen, werden derzeit verschiedene Varianten zur Sicherstellung der Datenintegrität genutzt (z.B. Codekontrolle oder ausschließliches Erlauben von dedizierten geprüften Methoden).

Ein solches Vorgehen hat mehrere Vorteile: Der Prozess ist DSGVO-konform und das Risiko von Datenverstößen wird reduziert. Die Ergebnisse (gerade für die Entwicklung von KI) werden auf Basis von mehr und diverseren Daten genauer, und Bias in den Modellen damit vermindert. Genauso ergeben sich dadurch auch Nachhaltigkeitsvorteile: Die benötigte Infrastruktur kann wiederverwendet werden, doppelte Datenhaltung und der damit verbundene Energieverbrauch werden reduziert und rechenintensive Prozesse sind während der Rechenphasen auf kleinere Rechner verteilt.

Diese Art der Datenanalyse wird derzeit in vielen Forschungseinrichtungen geprüft und weiterentwickelt. Ein Beispiel ist die Erkennung von Herzinfarkten: Ein Forschungsteam an der Mayo Clinic in Minnesota nutzte Federated Learning, um ein Modell zur Erkennung von Herzinfarkten zu entwickeln. Hierfür wurden Daten von mehr als 400.000 Patienten aus 11 verschiedenen medizinischen Einrichtungen verwendet.

Interoperable Gesundheitsdatenräume: Infrastruktur für effiziente Prozesse und hohen Datenschutz

Der Schlüssel, um solche neuen Erkenntnisse, Produkte und Dienstleistungen im Gesundheitswesen zur ermöglichen, sind sogenannte interoperable Datenräume, die souveräne Prozesse, Technologien und Rechtsrahmen bereitstellen. Ein Beispiel für einen Gesundheitsdatenraum ist der European Health Data Space (EHDS) – eine von mehreren Initiativen der Europäischen Union, die darauf abzielen, den Austausch von Gesundheitsdaten in der EU zu verbessern. Der EHDS soll eine gemeinsame Dateninfrastruktur zu schaffen, die den Zugang zu Gesundheitsdaten erleichtert und gleichzeitig den Schutz personenbezogener Daten gewährleistet.

Dafür analysiert der EHDS auch die verschiedenen Möglichkeiten des föderalen Lernens. Ein großer Wert wird dabei dem FAIR-Prinzip beigemessen (Findable, Accessible, Interoperable, Reusable). Dieses besagt, dass Datensätze gefunden, erreicht und wiederverwendet werden können sollen, um kontinuierliche Mehrwerte zu schaffen. Um dieses Ziel zu erreichen, investiert die EU derzeit in zahlreiche Forschungsprojekte. Ein wesentlicher Faktor für deren Erfolg ist die Interoperabilität der zu verbindenden Datensätze, damit die verschiedenen Datenquellen miteinander auswertbar sind.

Datenschutz steht im Fokus

Damit föderales Lernen funktioniert, ist es zudem essenziell, Vertrauen bei Bürgerinnen und Bürgern schaffen, dass ihre Daten umfassend anonymisiert werden und hoher Datenschutz gewährleistet wird. Bei öffentlich geförderten Projekten und auch Open-Source-Anwendungen wird deshalb auf eine transparente Kommunikation geachtet. In Open-Source-Projekten sind die genutzten Ressourcen außerdem öffentlich zugänglich und können überprüft werden. Allerdings: Die Frage, ob Daten an ihrem jeweiligen Ort auch DSGVO konform behandelt werden, ist oft nicht einfach zu klären.

Entwickler von Federated-Learning-Systemen müssen daher zwingend sicherstellen, dass Daten durch geeignete Technologien und Verfahren geschützt werden. Hierfür müssen Anonymisierungs- und Pseudonymisierungs-Strategien entwickelt werden, die in die Systeme integriert sind. Wichtig dafür ist: Bei Pseudonymisierung können personenbezogene Daten einer betroffenen Person nur noch unter Hinzuziehung weiterer Informationen identifiziert werden. Pseudonyme dürfen nicht rückverfolgbar sein. In interoperablen Datenräumen wie dem EHDS kann eine übergreifende Strategie zur Pseudonymisierung langfristig dafür sorgen, dass Informationen der gleichen Person für personalisierte Gesundheitsverbesserungen genutzt werden können.

Struktureller Rahmen für Innovation

Die Entwicklung föderaler Systemen steht derzeit noch am Anfang, aber schon jetzt zeigen sich die zahlreihen Vorteile für unser Gesundheitswesen und unsere Gesellschaft. Förderales Lernen hat das Potential, die Gesundheitsversorgung und medizinische Forschung nachhaltig zu verbessern und zum Motor für therapeutische Innovationen zu werden. Neue Erkenntnisse über Krankheiten und deren Entstehung können dank neuer Datenquellen schneller und effizienter gewonnen werden, was zu besseren Diagnose- und Therapiemöglichkeiten führen kann. Um die Sicherheit von hochsensiblen Gesundheitsdaten zu gewährleisten, muss Datenschutz bereits zu Beginn der Entwicklung föderaler Systeme als Grundvoraussetzung miteinbezogen werden. Datenräume wie der EHDS schaffen dazu einen guten Rahmen.  

Haben Sie Fragen zu föderalem Lernen und dem Einsatz der Technologie im Gesundheitswesen? Ich freue mich auf den Austausch mit Ihnen!

Blog-Updates per Mail?

Abonnieren Sie unseren Newsletter und erhalten Sie alle zwei Monate eine Auswahl der besten Blogartikel.