Zum Inhalt gehen

Synthetische Daten im Gesundheitswesen: Datenschutz und Forschungspotenzial vereint

Jana Hapfelmeier
18 Jul 2023

Für die datengetriebene Gesundheitsforschung werden hohe Anforderungen an den Datenschutz gestellt. Die Anonymisierung von Patientendaten ist jedoch aufwendig, manchmal gar nicht möglich. Als Alternative werden zunehmend synthetische Daten genutzt – doch auch hier gibt einiges zu beachten, damit das Potenzial dieser „künstlichen“ Daten sicher genutzt werden kann.

Das Gesundheitssystem braucht anonyme Daten

Anonyme Gesundheitsdaten sind für unser Gesundheitswesen von zentraler Bedeutung – von der Entwicklung neuer Therapien und medizinischer Forschung, der Verbesserung der Versorgungsqualität und Krankheitsprävention, bis hin zu Kostensenkungen. Vorhandene Daten zu diesem Zweck zu nutzen, ist jedoch mit vielen Herausforderungen verbunden, zu denen insbesondere die Einhaltung des Datenschutzes gehört. Um Missbrauch von hochsensiblen Gesundheitsdaten zu vermeiden ist es wichtig, wenn möglich mit anonymisierten Daten zu arbeiten.
Doch Anonymisierung allein kann nicht alle Probleme lösen, denn auch dafür bedarf es der Zustimmung des Eigentümers, also des Patienten. Wird die Einwilligung von Patienten nicht schon vor Beginn einer Studie sichergestellt, können Daten sogar als verloren gelten. Zusätzlich stellt sich immer wieder die Frage, ob eine vollständige Anonymisierung bestehender Daten überhaupt möglich ist, da durch die Kombination von mehreren anonymen Datensätzen eine Person durchaus wieder re-identifiziert werden kann.

Es reicht also bei weitem nicht aus, direkt identifizierende Merkmale aus dem Datensatz zu löschen. Stattdessen muss sichergestellt werden, dass im ganzen Datensatz für jede Person eine Mindestmenge an anderen Personen mit gleichen Charakteristika vorhanden ist. Erst dann lassen sich Einzelpersonen nicht mehr unterschieden (k-Anonymität). Eine andere Methode ist das sogenannte „Verrauschen“ von Daten. Dabei werden Daten zufällig verändert, so dass man nicht mehr mit absoluter Sicherheit sagen kann, um welche Person es sich handelt (Differential Privacy).
Allerdings: Sowohl k-Anonymität als auch Differential Privacy haben den Nachteil, dass sie Muster oder Zusammenhänge im Datensatz so stören können, dass die daraus entstehenden Daten später für die gedachte Analyse nicht mehr nutzbar sein können.

Synthetische Daten als Alternative

Wie können Forschungsteams also das große Potenzial von Gesundheitsdaten nutzen, ohne den Datensatz zu stören und gleichzeitig einen hohen Datenschutz gewährleisten? Eine Lösung für dieses Dilemma bietet die Datensynthese. Dabei gibt ein Algorithmus vor, wie ein Datensatz erstellt werden soll. Im einfachsten Fall würfelt der Algorithmus zufällig Daten nach einem vorgegebenen Schema zusammen. Ein solcher Datensatz wäre allerdings für Forschung und Analyse nicht von Wert. Sinnvoller ist es, mit Hilfe der Originaldaten statistische Modelle zu trainieren, welche die gefundenen großen Zusammenhänge in einen neuen Datensatz synthetisieren können. Dann haben synthetische Daten die gleichen mathematischen und statistischen Eigenschaften wie der Originaldatensatz. So wird die Analyse für medizinische Zwecke möglich, da die Muster in den Daten erhalten bleiben. Gleichzeitig wird die Privatsphäre der Patienten gewahrt.
Synthetische Daten bieten damit eine kosteneffiziente Alternative zu realen klinischen Daten, deren Nutzung aufgrund des Datenschutzes und rechtlicher Beschränkungen teuer wäre, und die außerdem schwer zugänglich sein können.

Vielfältiger Einsatz

Synthetische Daten können zur Simulation und Vorhersage von Ergebnissen in verschiedenen Gesundheitsszenarien verwendet werden und ermöglichen es Forschenden, Algorithmen und Technologien zu testen, bevor sie Zugang zu echten klinischen Daten erhalten. Das kann dazu beitragen, Bereiche von Modellen oder Algorithmen mit Verbesserungsbedarf oder potenzielle Risiken zu ermitteln.
Darüber hinaus können synthetische Daten in der Epidemiologie und der Forschung im Bereich des öffentlichen Gesundheitswesens zum Einsatz kommen, um Trends und Muster in Gesundheitsdaten zu erkennen, die zur Verbesserung von Maßnahmen und Interventionen im öffentlichen Gesundheitswesen beitragen. Ein weitere Anwendungsfall ist die Verwendung als Kontrollgruppe für klinische Studien zu seltenen oder neu entdeckten Krankheiten, für die keine ausreichenden Daten vorliegen.
Synthetische Daten können und sollten vor allem aber dort eingesetzt werden, wo der konkrete Inhalt von einem Datenfeld gar nicht das entscheidende darstellt – wie beim Testen von Gesundheits-IT Systemen oder für Schulungs- oder Trainingszwecke. Wichtig ist, dass dort der richtige Datentyp vorliegt, jedoch ist es nicht notwendig, dass es sich um einen realen Fall handelt. Dadurch wird es Healthcare-Professionals ermöglicht, komplexe Prozeduren oder Szenarien in einer sicheren und kontrollierten Umgebung zu üben. Genau diesen Gedanken hat die EU bereits im AI Act in der Regulierung zu Trustworthy AI festgehalten.

Vorsicht bei komplexen Datensätzen: Auch synthetische Daten haben Grenzen

In jedem Fall müssen synthetische Daten richtig verwendet werden. Aufgrund der Erstellungsvariante ist es manchmal besonders schwierig sicherzustellen, dass sie genauso verlässlich sind wie Originaldaten, da durch den Zwischenschritt der Synthese ggf. wichtige Teilaspekte nicht erkannt und mitmodelliert wurden. Das gilt insbesondere bei sehr komplexen Datensätzen. So können falsche Erkenntnisse entstehen, die zu fehlerhaften Entscheidungen führen, wenn sie unbedacht für bestimmte Probleme genutzt werden. Außerdem lassen sich Verzerrungen mit synthetischen Daten nicht ausschließen – sind die Originaldaten verzerrt, kann das auch für die daraus abgeleiteten synthetischen Daten der Fall sein.

Nichtsdestotrotz haben synthetische Daten viele Vorteile für das Gesundheitswesen, darunter Kosteneffizienz, verbesserte Forschung und Entwicklung, eine verbesserte Patientenversorgung, sowie eine schnellere Entwicklung von IT-System für den Healthcare-Bereich. Für ihre Nutzung ist es jedoch auch wichtig, ihre Limitationen zu kennen und abzuschätzen, ob sie genauso zuverlässig sind wie reale Daten.

Initiativen zur Verbesserung synthetischer Daten: Mehr Zuverlässigkeit und Austausch

Derzeit starten einige Forschungsprojekte – wie etwa Anony-Med der Berliner Charité – die sich intensiv mit der Fragestellung der synthetischen Daten beschäftigen. Dazu zählt die Erstellung standardisierter Rahmen, um die Zuverlässigkeit synthetischer Datensätze genau zu bewerten, oder die Entwicklung von Plattformen, die das Testen von Synthesealgorithmen durch Forschende sowie die Zustellung von synthetisierten Datensätzen an ärztliches Fachpersonal ermöglicht. Durch die Förderung des direkten Austausches sollen Synthesealgorithmen schnell weiterentwickelt werden. Natürlich gibt es daneben auch einige Softwareangebote kommerzieller sowie wissenschaftlicher Einrichtungen, die es bereits jetzt ermöglichen, verschiedene synthetische Datensätze zu erstellen. Die derzeitige Forschung wird diese aber noch deutlich weiterentwickeln.

Blog-Updates per Mail?

Abonnieren Sie unseren Newsletter und erhalten Sie alle zwei Monate eine Auswahl der besten Blogartikel.