Zum Inhalt gehen

Das datengesteuerte Ökosystem als Basis für eine zukunftsfähige Organisation

Tae Ho Shin
02. Dez. 2020

Es ist kein großes Geheimnis, dass der Wert von Daten für Organisationen ständig wächst. Der anhaltende Trend digitaler Technologien hat nicht nur das stetig wachsende Aufkommen großer Datenmengen zur Folge, sondern profitiert auch von den Erkenntnissen, die durch die richtige Analyse der entstehenden Datensätze gewonnen werden. Über das Internet der Dinge (Internet of Things, IoT), allgegenwärtige Computersysteme und verbundene Geräte, die mehrere Möglichkeiten der Kommunikation untereinander sowie eine Vielzahl von Sensoren und Aktoren enthalten, entstehen beispielsweise in jedem Moment und bei jeder Transaktion riesige Datenmengen. Zusätzlich wird das Medienspektrum durch Bild, Audio und Video erweitert, und schnellere Computer produzieren komplexere Simulationsergebnisse, die analysiert werden müssen.

Dies ist jedoch nicht der einzige Bereich einer massiven Datengenerierung. Inmitten der kontinuierlichen Zunahme von Echtzeit- und historischen Daten, die aus einer Vielzahl von Quellen wie Social Media, Logfiles, transaktionalen Anwendungen – im Allgemeinen Transaktionen im Internet – stammen, gewinnt der Trend zu großen Datenmengen immer mehr an Bedeutung. Big Data zeichnen sich durch diese enormen Datenmengen mit ihrer Vielfalt aus, die in vielen verschiedenen Formen und Formaten (strukturiert, unstrukturiert, halbstrukturiert usw.), mit hoher Geschwindigkeit, d.h. schnellen Datenströmen und Datenunsicherheit entstehen.
Daher ist es heutzutage von größter Bedeutung, Daten nicht nur zusammenzustellen, sondern Daten auch zu verstehen und aus Daten zu lernen, um Vorhersagen und Prognosen zu verbessern und auch Daten für Marktwachstum und Gewinn zu nutzen.

Aus Big Data geschäftlichen Nutzen ziehen

Die Erkenntnis, dass Daten für jedes Unternehmen immer mehr an Wert gewinnen, führt zu der allgemeinen Schwierigkeit, wie man aus diesen Daten tatsächlich geschäftlichen Nutzen ziehen kann. Der Data-Warehouse-Ansatz war bisher recht erfolgreich, bei dem strukturierte Daten aus den Transaktionssystemen der Organisation (z.B. ERP-Systeme, CRM-Systeme usw.) für umfangreiche OLAP-Analysen zur Verfügung gestellt werden, die zur Schaffung von Erkenntnissen und zur Generierung von Informationen und letztlich zu einem besseren Entscheidungsprozess führen. Diese Technologie wird in vielen Organisationen auf breiter Basis eingesetzt. Ein gängiges Beispiel sind typische Business-Intelligence-Tools, die aus historischen ERP-Daten Dashboards erstellen, aus denen die Benutzer dann Geschäftseinblicke ableiten, um entsprechend zu reagieren. Da Data Warehousing jedoch nur mit strukturierten Daten aus transaktionalen Aktivitäten umgehen kann, kann es die Existenz von Big Data nicht voll ausnutzen. Daher haben moderne Organisationen einen Bedarf an etwas anderem, denn heute geht es um mehr als nur um strukturierte Daten aus transaktionalen Datenquellen.

In der heutigen Welt sind Unternehmen in der Regel nicht nur mit einer Vielzahl unterschiedlicher Anwendungen konfrontiert, sondern auch mit einer großen Vielfalt von Daten in unterschiedlichen Formaten und verschiedenen Datenströmen. Vor diesem Hintergrund muss ausgehend von der Organisationsebene die Frage beantwortet werden, wie man mit Big Data umgehen sollte und wie man den Wert und die Möglichkeiten dieser Trends nutzen könnte. Wie sollten Organisationen ihre IT-Strategie und -Architektur ausrichten, um sicherzustellen, dass sie nicht zurückfallen, sondern von diesem Trend profitieren? Die Antwort lautet: weg von Legacy-Technologien, hin zum Aufbau eines datengesteuerten Ökosystems.

Voraussetzungen für ein datengesteuertes Ökosystem

Wenn man diese Einleitung versteht, stellt sich die Frage, wie ein solches datengesteuertes Ökosystem aufgebaut werden kann. Zunächst einmal müssen die Organisationen die Notwendigkeit dafür tatsächlich erkennen. Das ist der Punkt, an dem viele Organisationen aufgrund einer „unser Geschäft läuft so, wie es ist, daher brauchen wir das nicht“-Politik bereits im Rückstand sind. Im Folgenden ist es in den meisten Fällen sinnvoll, mit einer Analyse der aktuellen Ist-Situation der IT-Landschaft eines Unternehmens entlang seiner Wertschöpfungskette, Regionen und Marken zu beginnen.

Beispielsweise gibt es Organisationen mit einer hohen Anzahl und einem hohen Alter von Anwendungen, was ein Indikator für mangelnde Konsolidierung sein kann. Auch wenn eine Organisation eine hohe Nutzung von kundenspezifisch entwickelten Anwendungen in Bereichen mit geringer Differenzierung aufweist, kann dies ein Indikator für Standardisierungspotenzial sein. Eine gründliche Anwendungsanalyse zeigt also die allgemeine Bereitschaft einer Organisation in Bezug auf den Übergang zu einem datengesteuerten Ökosystem.

Architektur eines datengesteuerten Ökosystems

Die Basis eines datengesteuerten Ökosystems ist die Infrastruktur-/Anwendungsschicht. Auf dieser Ebene finden die Anwendungsbereiche statt, die zur Datengenerierung führen, wie z.B. Sensor- und Aktordaten, E-Mails, Social Media und ERP-Systeme.

In der Vergangenheit gab es typischerweise monolithische Systeme, die ihren Anwendungscode mit den Daten zusammensetzten (wobei die Daten für jede Anwendung in relationalen Datenbanken gespeichert wurden), was häufig zu Datenredundanz führte, da bestimmte Daten von mehreren Anwendungen verarbeitet und gespeichert wurden. Dies ist ein Beispiel dafür, warum die Datenschicht eines digital gesteuerten Ökosystems eine „Single Source of Truth“ sein sollte. Eine Möglichkeit diese Datenbasis zu schaffen, ist der Umzug der Applikationslandschaft in die Cloud. Durch das Konsolidieren verschiedener Datenbanken in eine einheitliche Infrastruktur, werden Redundanzen minimiert und eine Annäherung zu einer vollumfänglichen Datenbasis („Single Source of Truth“) geschaffen.

Über dieser Datenschicht befindet sich die digitale Schicht, auf der die Daten für verbesserte Geschäftseinsichten und Entscheidungsprozesse zur Verfügung gestellt werden. Hier werden die Informationen aus den Daten für die geschäftliche Wertschöpfung genutzt, z.B. für intelligente Verarbeitung, intelligente Dienste, möglicherweise für strategische Fahrpläne, Predictive Maintenance und vieles mehr.

Zwischen allen Schichten muss es ein funktionierendes API-Management geben, um eine definierte Art und Weise zu haben, wie die verschiedenen Komponenten der Schichten miteinander interagieren. Im besten Fall laufen alle Schichten, d.h. das gesamte Ökosystem, in der Cloud und nehmen der Organisation Belastungen ab, wie z.B. Vorlaufkosten für die Installation, Kapazitätsprobleme, Wartungsaufwand usw.

Abbildung 1: Architektur eines datengetriebenen Ökosystems

Data Lakes anstelle von Data Warehouses

Wenn man tiefer in die Datenschicht eintaucht, ist das massenhafte Auftreten neuer, zahlreicher Datenquellen, die oft sehr unterschiedlich sind und unterschiedliche Datenformate umfassen, ein Indikator dafür, dass ein gemeinsames Data Warehouse nicht ausreicht, um dieser Situation gerecht zu werden. Es gäbe zu viele nicht transaktionale, aber potenziell relevante Daten, die nicht analysiert und nicht für die Informations- und Geschäftswertgenerierung genutzt werden, sodass Raum für eine andere Infrastruktur zur Datenakkumulation bleibt. Dies erfordert eine klare Verschiebung im Konzept der Datenarchitektur.

Eine gute Lösung ist die Verwendung eines Data Lakes als zentraler Speicherort für alle Daten, unabhängig davon, ob sie strukturiert, unstrukturiert oder halbstrukturiert sind. Die Daten könnten so wie sie sind, ohne jegliche Struktur oder Schema gespeichert werden (z.B. Speicherung von Daten von Unternehmenssystemen, Social-Media-Daten, Sensor- und Aktordaten, Bilder, Videos, Texte und viele mehr). Anders als im Data Warehouse wird das Schema mit Hilfe eines Datenspeichers beim Lesen und nicht beim Schreiben definiert. Die Architektur eines Data Lakes ist normalerweise ein Hadoop-Dateisystem mit vielen Verzeichnissen und Dateien darauf.

Während die Aufnahme von Daten aus ihren Quellen in ein Data Warehouse Extracting-, Transforming- und Load-Aktivitäten (ETL) sowie eine Bereinigung der Daten erfordert, können die Daten in einem Data Lake direkt verarbeitet werden, ohne dass eine Transformation durchgeführt werden muss. Die Transformation der Daten erfolgt beim Zugriff auf die Daten des Data Lakes und deren Verarbeitung in der digitalen Schicht. Im Vergleich dazu bedeutet dies, dass beim Data-Warehouse-Konzept das Extracting traditioneller Datenquellen aus transaktionalen Systemen auf der Grundlage von Geschäftsanforderungen (z.B. CRM-, ERP-, PLM-Systeme) stattfindet, während ein Data Lake unspezifische Extraction von Daten aus allen möglichen Arten von Quellen und Geschäftsanwendungen (intern und extern) enthält.

Tabelle 1: Unterschiede zwischen dem Data Warehouse und dem Data Lake Ansatz

Letztendlich muss es das Ziel sein, alle Anwendungen mit der Datenschicht zu synchronisieren. Da sich alle strukturierten und unstrukturierten Daten in der Datenschicht befinden, gibt es heutzutage eine Menge hochentwickelter Technologien zur Datenanalyse. Generell gibt es drei mögliche Wege, die Daten des Data Lakes zu verarbeiten. Das manuelle oder automatisierte ETL in Echtzeit-Datenbanken oder in Data Warehouses und Data Marts der zweiten Schicht ist das, was heute typischerweise bei der Anwendung von Data Lakes gemacht wird.

In diesen Fällen funktioniert der Data Lake wie eine Art Unterebene des Data Warehouse (siehe Abbildung 1), und der Hauptvorteil des Data Lakes ist die Aggregation aller strukturierten, halbstrukturierten und unstrukturierten Daten. In diesem Szenario ist es sinnvoll, Data Lakes und Data Warehouses nebeneinander existieren zu lassen. Auf Wunsch können dann Daten aus dem Data Lake in das Data Warehouse für Business Intelligence und Reporting-Transaktionen verarbeitet werden.

Erweiterung durch Data Science und Machine Learning

Eine fortschrittlichere Lösung ist die Datenaufbereitung und -validierung durch die Nutzung von Data Science- und Machine Learning-Technologien. Dies würde fortgeschrittene Analysen und Entdeckungen ermöglichen, die nicht über ein einfaches Data-Warehouse-System erreicht werden können. Darüber hinaus kann dieses Konzept durch die Nutzung des maschinellen Lernens hier sogar noch weiter vorangetrieben werden, was zu einer automatisierten Klassifizierung relevanter Daten führt, die in der digitalen Schicht weiter akkumuliert werden, wo sie den Benutzern Einsichten und Informationen für die Schaffung von Geschäftswert liefern.

Möglicherweise wären auch automatische Vorhersagen und Generierung von Erkenntnissen auf der digitalen Ebene machbar, was zu einer minimalen Benutzerinteraktion führen würde, vorausgesetzt, dass die Modelle des maschinellen Lernens zuverlässig getestet und trainiert worden sind. Darüber hinaus würde die Durchführung von Edge Analytics direkt auf der Akkumulation der Daten dieses Konzept des maschinellen Lernens sogar über die Grenzen hinaus vorantreiben.

Vielen Dank an Martin Wendnagel und Lucas Neumann für die maßgebliche Erstellung dieses Beitrags.

Wenn Sie weitere Informationen zu diesem Thema oder zu den grundlegenden Vorteilen, die die Cloud in diesem Zusammenhang bietet, erhalten möchten, kommen Sie gerne auf mich zu.

Weitere Blog Artikel

Daten & Künstliche Intelligenz

First 100 Days of a Chief Data Officer

Ingo Finck
3 Aug. 2022
Daten & Künstliche Intelligenz, Sustainability

Wie klimaresilient sind unsere Städte – müssen wir umdenken?

Markus Pütz
27 Juli 2022
Daten & Künstliche Intelligenz, Transformation & Innovation

Digital (T)win – Welche konkreten Anwendungsfälle und Mehrwerte stecken hinter dem Buzzword wirklich?

Svenja Dreger
21 Juli 2022

Blog per E-Mail abonnieren

Erhalten Sie regelmäßig Blogposts in Ihrem Posteingang.