Value from Data: Sicherstellung der Datenqualität in Chemie-, Pharma- und klinischen Laboren mit detaillierten Datenanalysen

Publish date:

Detaillierte Datenanalysen sind nötig, um Datenqualität in Chemie-, Pharma- und klinischen Laboren sicherzustellen.

ide-value-capgemini-inventCapgemini Invent adressiert die CxO Daten-Strategie und unterstützt seine Kunden bei der datengetriebenen Wertschöpfung.

Mit unseren Offerings rund um #valuefromdata zeigen wir Ihnen, wie Sie Ihre Daten so managen, dass Sie deren volles Potential ausschöpfen. So maximieren Sie den Wert, den Sie mit Ihren Daten generieren.

Die frühzeitige Beurteilung der Qualität der erfassten Daten in Forschungs- und Entwicklungs- sowie Produktionsprozessen in der Chemie-, Pharma- und medizinisch-klinischen Industrie kann zu erheblichen Zeiteinsparungen und Effizienzsteigerungen führen. Da Zeit Geld ist, wird sich eine Investition in das Datenqualitätsmanagement und dessen Verbesserung bald auszahlen.

Aber wie wird die Datenqualität im (bio)chemischen Labor analysiert?

Das Capgemini Invent-Datenqualitäts-Framework berücksichtigt verschiedene Dimensionen der Datenqualität. Darunter fallen unter anderem Vollständigkeit, Genauigkeit, Konsistenz und Gültigkeit von Daten. Nur wenn ein Datensatz den zuvor definierten Datenqualitätsstandards in diesen vier Kategorien entspricht, sollten die Daten für die weiterführende Datenanalyse vorbereitet werden.

Die Sicherstellung der angesprochenen Datenqualitätsstandards ist Aufgabe des Datenqualitätsmanagements eines Unternehmens. Mit unserem Ansatz des Analytical Data Quality Managements (ADQM), den wir bereits in einem früheren Teil unserer “Value from Data“-Serie einführend beschrieben haben, werden Algorithmen des maschinellen Lernens angewendet, um die Datenqualität nachhaltig zu verbessern und manuelle Aufwände zu verringern. Im Labor werden in der Regel verschiedene Arten von Geräten verwendet, mit denen Daten erfasst werden, z. B. Chromatographen, Massenspektrometer, Gensequenzierungsgeräte, Waagen oder Mikroskope. Bevor eine Reihe von Experimenten mit diesen Geräten durchgeführt wird, sollte der Experimentator eine gute Vorstellung von den Daten haben, die als Ergebnis erwartet werden. Entlang der Datenqualitätsdimensionen kann die Güte der erhobenen Daten anhand der folgenden Fragestellungen bewertet werden:

1) Vollständigkeit: Werden alle beabsichtigten Strukturen abgebildet? Werden alle geplanten Proben gemessen?

2) Genauigkeit: Stimmen die erzielten Ergebnisse mit den erwarteten Ergebnissen überein?

3) Konsistenz: Zeigen alle Proben sehr ähnliche/ identische Ergebnisse?

4) Gültigkeit: Sind die experimentellen Ergebnisse im Vergleich zum Kontrollexperiment sinnvoll? Misst das Experiment, was es messen sollte?

Die vielfältigen Ansätze von ADQM lassen sich in zwei Haupttypen von Datenqualitätsproblemen unterteilen: bekannte und unbekannte Datenqualitätsprobleme. Im Fall von bekannten Datenqualitätsproblemen werden die datengetriebenen Methoden eingesetzt, um die Root Causes der Probleme ausfindig zu machen, sodass diese proaktiv behoben werden können. Demgegenüber erlaubt es ADQM im zweiten Fall, mit Hilfe von Algorithmen bisher unbekannte Probleme anhand von Mustern in den Daten selber zu erkennen.

In der Chemie-, Pharma- und Life Science Industrie entstehen während des Ablaufs von Forschungs- und Entwicklungs- sowie Produktionsprozessen verschiedenste Daten, welche sowohl das Resultat von Experimenten bzw. Endprodukt als solches sind, aber zusätzlich auch sämtliche Phasen des Entstehungsweges dorthin beschreiben. Hierbei ist das Resultat beispielsweise ein eindeutig positives oder negatives Testergebnis bei Antikörpertests in klinischen Laboratorien oder die Überprüfung bestimmter Qualitätsmerkmale in der Arzneimittelproduktion. Abweichungen von den erwarteten Ergebnissen können in beiden Anwendungsfällen leicht über die Zuhilfenahme von statistisch signifikanten Grenzwerten identifiziert werden. In der sich stetig ausweitenden Digitalisierung von Laboren, deren Bedeutung wir ganzheitlich auch in einem früheren Blogartikel beleuchtet haben, werden zunehmend jedoch bereits vor Eintritt des Resultats Messpunkte und Informationen erhoben, z.B. Temperaturen bei der Herstellung, Trocknung oder Vermischung von Produktbestandteilen, Durchmischungsgrad des Produktes, Mengenanteile der Produktinhaltsstoffe, pH-Wert der löslichen Bestandteile, fehlerfreie Funktionalität der in der Produktion eingesetzten Geräte und verwendeten Materialien.

Unter Verwendung des gesamten Datenspektrums lässt sich der Einsatz von ADQM, wie folgt, motivieren: Im Sinne einer Root Cause Analyse können auf Basis von bekannten Abweichungen, z.B. uneindeutige Farbentwicklungen während der Durchführung eines Hochdurchsatzverfahrens, die zugrundeliegenden Ursachen im Prozess der Probenvorbereitung und Testdurchführung datengetrieben ermittelt werden. Die daraus resultierenden Erkenntnisse erlauben es, proaktive Maßnahmen zu ergreifen, um die Fehler ganzheitlich zu eliminieren (siehe Anwendungsfall 1 unten).

Demgegenüber können die Informationen, die etwa im Herstellungsprozess von Tabletten gemessen werden, in einen Algorithmus integriert werden, der die aktuelle Zusammensetzung der Daten in Echtzeit mit typischen Datenmustern vergleicht. Sollte auf diese Weise eine Abweichung von der Norm ermittelt werden, könnte im Sinne eines Frühwarnsystems der Produktionsprozess gestoppt bzw. durch das rechtzeitige Einleiten von Maßnahmen eine Fehlproduktion verhindert werden (siehe Anwendungsfall 2 unten).

Beide Ansätze, sowohl die Identifikation von Root Causes bei bekannten Datenmissständen als auch die frühzeitige Identifikation von zu erwartenden Fehlern, reduziert den Einsatz von Ressourcen maßgeblich.


Im Folgenden stellen wir zwei praxisnahe Anwendungsfälle des Datenqualitätsmanagements vor:

Anwendungsfall 1: Antikörpertests in klinischen Laboratorien (Root Cause Analyse)

Ein Test auf Antikörper z.B. des SARS-CoV-2 Virus soll die Durchseuchungsrate der Bevölkerung bestimmen. Ein solcher Test besteht in der Regel aus einem fixierten Antikörper, der an ein Virusprotein (Antigen) zum Beispiel im Blut des Patienten bindet, wodurch ein Farbstoff freigesetzt wird. Die Patientenproben werden dann auf die Farbentwicklung hin in einem Hochdurchsatzverfahren (High through-put) digital gescreent. Durch eindeutig positive und negative Ergebnisse werden Färbungsgrenzintensitäten festgelegt. Bei der Bewertung von Färbungen, deren Intensität nicht klar positiv oder negativ gewertet werden kann, können Datenqualitätsanalysen eingesetzt, um die Ursachen (Root Cause) für ein solches Ergebnis zu finden.

Anwendungsfall 2: Qualitätsüberprüfung in der Pharmaproduktion (Anomalie-Erkennung)

Tabletten werden während ihrer Produktion auf bestimmte Qualitätsmerkmale hin überprüft, um sicherstellen zu können, dass das hergestellte Produkt den Auflagen entspricht. Eines dieser Merkmale ist die Dicke der hergestellten Tabletten. Die Tablettendicke wird nach Messung in eine Datenbank eingespeist. Diese Daten werden analysiert, um Schwankungen in der Dicke zu identifizieren. Überschreitungen der zulässigen Dickengrenzwerte werden dann nachverfolgt, um deren Ursachen aufzuklären.


Über die Autoren:

Sebastian Dierdorf ist Datenqualitätsexperte bei Capgemini Invent und konzentriert sich darauf, Data Science mit dem traditionellen Datenqualitätsmanagement zu kombinieren.

Dr. Annette Hellbach ist Life Science- und Pharma-Expertin bei Capgemini Invent und konzentriert sich auf Strategien rund um das digitale Labor-Framework und die Datenanalyse.

Gerne können Sie sich mit Sebastian und Annette auf LinkedIn vernetzen, um das Thema weiter zu diskutieren. Wir freuen uns auf den Austausch!