Grundlage für KI‑Anwendungen sind verlässliche, strukturierte und zugängliche Daten. Häufig fehlt allerdings die im Hintergrund automatisierte Überführung bislang ungenutzter Informationen in sogenannte Findable, Accessible, Interoperable, und Reusable (FAIR ) Data. D.h., die Überführung in standardisierte, auffindbare und systemübergreifend nutzbare Daten. Einmal erreicht, ermöglichen diese FAIR-Daten zusätzliche KI‑Use‑Cases mit messbarem Effizienzgewinnen, wirksam auf der P&L, entlang der gesamten Wertschöpfungskette.

Für Unternehmen stellt sich daher eine zentrale Frage: Wie lassen sich bestehende und bisher ungenutzte Informationen, die häufig in papierbasierten und schwer zugänglichen Datenquellen verborgen sind, in wertstiftenden Anwendungen nutzen? In der industriellen Praxis scheitert dies häufig daran, dass geschäftskritische Informationen in PDF-Dokumenten zwar vorliegen und als Dokumente archiviert werden, die enthaltenen Daten jedoch nicht extrahiert werden. Dies stellt einen bislang großen Blindfleck in den Unternehmensdaten dar.

PDFs als Engpass für datengetriebene Wertschöpfung

Produktionsunternehmen verfügen über umfangreiche Dokumentenbestände.
Viele davon liegen als gescannte PDFs ohne digitale Struktur vor. Diese sind für Menschen lesbar, für datengetriebene Prozesse jedoch ungeeignet und für IT-Systeme nicht nutzbar.

Die manuelle Extraktion von Daten aus diesen Dokumenten ist aufwändig und fehleranfällig. Sie verhindert Automatisierung, Skalierung und steht so einer datenbasierten Steuerung im Weg.

Gleichzeitig erfordern KI gestützte Anwendungen FAIR Data. Daten müssen auffindbar, zugänglich, interoperabel und wiederverwendbar sein. Solange Informationen in PDFs gebunden bleiben, ist das nicht erreichbar. Damit bleibt das Potenzial von Advanced Analytics- und KI-Lösungen, die auf diesen Daten basieren, ungenutzt.

Durch Intelligent Document Processing dokumentenbasierte Informationen nutzbar machen

Intelligent Document Processing (IDP) wandelt mithilfe von Optical Character Recognition (OCR) und Large Language Models (LLMs) Inhalte aus Dokumenten automatisiert in strukturierte, maschinenlesbare Daten um. Wie in Abbildung 1 dargestellt, werden Dokumente aus verschiedenen Quellsystemen erfasst, Informationen extrahiert und kontextualisiert, bei Bedarf durch Anwender validiert oder korrigiert („Human in the Loop“) und anschließend standardisiert im Data Warehouse gespeichert. So entstehen verlässliche FAIR Data als Basis für skalierbare Advanced-Analytics- und KI-Use-Cases und die Brücke zwischen Dokumenten und datengetriebener Produktion wird geschlossen.

Abbildung 1: Genereller Ablauf von Intelligent Document Processing

Entscheidend ist die Integration in bestehende Tools, Datenplattformen und Prozesse um Akzeptanz, Skalierung und nachhaltigen Nutzen sicherzustellen. Ein selbstlernender Algorithmus verbessert dabei kontinuierlich die Erkennungs- und Interpretationsqualität, indem er aus Feedback der Nutzer („Human in the loop“) lernt. So entstehen verlässliche FAIR Data für weiterführende Use Cases. Intelligent Document Processing wird damit zur Brücke zwischen Dokumenten und datengetriebener Produktion.

Wertschöpfung am Beispiel von Certificates of Analysis

Ein konkretes Beispiel bietet die automatisierte Digitalisierung von Certificates of Analysis (CoA) bei einem unserer Kunden aus der Chemieindustrie. CoAs bestätigen die Einhaltung von Materialspezifikationen von Lieferanten gegenüber dem Kunden. Jeder gelieferten Charge ist ein entsprechendes CoA angehangen. Dies kann entweder ein digital erzeugtes PDF-Dokument sein oder ein analoges Dokument, welches anschließend gescannt wird.

CoAs unterschiedlicher Lieferanten liegen in verschiedensten Formaten, Sprachen und Qualitäten vor. Konventionelle Automatisierung stößt hier schnell an Grenzen. Die Daten blieben daher bislang weitgehend ungenutzt.

Die Analysen der in den CoAs enthaltenen Informationen erfolgten bislang reaktiv bei auftretenden Qualitätsproblemen basierend auf aufwändiger manueller Datenextraktion. Mit Intelligent Document Processing lassen sich CoAs auslesen und die Einhaltung der Spezifikation automatisiert überprüfen. Dadurch wird eine proaktive Qualitätssicherung und Optimierung des Produktionsertrags ermöglicht. Die optionale Einbindung von Human-in-the-loop erhöht nicht nur das nutzerseitige Vertrauen in die Lösung, sondern ermöglicht auch ein kontinuierliches Lernen der Lösung, falls Korrekturen an den extrahierten Daten notwendig sind.

Die Entwicklung der Lösung innerhalb der bestehenden Microsoft-Infrastruktur erleichtert die Skalierung, die fortlaufende Weiterentwicklung und einen möglichst kostengünstigen Betrieb der Lösung. Grundsätzlich ist der Ansatz jedoch nicht auf einen einzelnen Anbieter festgelegt, sondern lässt sich bei Bedarf auch auf andere Hyperscaler übertragen. Aus Dokumentenautomatisierung wurde so eine datengetriebene Produktionssteuerung.

Mit unserer entwickelten Lösung kann unser Kunde aus der Chemieindustrie von nun an die Lieferqualität der Lieferanten über einen längeren Zeitraum kontrollieren, durch die Transparenz günstigere (geringerer Sicherheitsfaktor bei der Reinheit) Produkte einkaufen und den Produktionseinsatz planen. Durch positive Auswirkungen auf die Cost of Good Manufactured (COGM) können potenzielle Verbesserungen der EBIDTA-Marge von bis zu 1 Millionen Euro pro Jahr realisiert werden.

Die Digitalisierung von PDF-Dokumenten und nicht auswertbaren Produktionsdaten ist ein entscheidender Faktor für die datenbasierte Steuerungsfähigkeit des Unternehmens. Sie sind bislang häufig ein zentraler Engpass für die datengetriebene Produktion. Intelligent Document Processing hebt diesen Datenschatz und schafft mit FAIR Data die Datenbasis für skalierbare KI.