RSS-Feed abonnieren

Eine zentrale Komponente der Professionalisierung von Big Data bildet das Konzept des Business Data Lakes. Er vereint viele verschiedene Datenarten und Quellsysteme und hebt damit das Informations- und Datenmanagement auf die nächste Entwicklungsstufe.

Doch wie verläuft der Weg von einem frisch aufgesetzten Data Lake mit ersten Projekten hin zu einer Lösung, die Datenschätze hebt und Mehrwerte liefert? Wie gelingt es, diesen Data Lake nicht als Insellösung zu betreiben, sondern als zentrale und integrierte Komponente der gesamten Unternehmens-IT? Auf diese Fragen möchte ich in einer vierteiligen Blogreihe eingehen, die ich hiermit auf dem IT-Trends Blog starte.

In vier Schritten zum erfolgreichen Business Data Lake

Auf der OOP 2017 habe ich bereits einige Best Practices vorgestellt – wer möchte kann sie hier auf Slideshare noch einmal nachlesen. Ein wichtiger Aspekt war damals das Thema Ingest, also die Frage: Wie bekomme ich die Daten in den Data Lake? Die Antwort darauf wird den Kern meines ersten Beitrags bilden. Eine Reihe an konkreten Tipps soll dabei helfen, den Data Lake zunächst mit Daten zu füllen und ihn an Hunderte Datenquellen anzubinden. Denn sobald es nicht nur um ein paar wenige Daten geht, die einmalig eingespeist wurden, sondern um Systeme, die regelmäßig und massiv neue Daten produzieren, kommt man mit einem Custom-Solution-Ansatz irgendwann an die Grenze. Denn man möchte ja nicht bei jeder neuen Datenquelle das Rad neu erfinden, sondern im Idealfall rein per Konfiguration neue Systeme anbinden und dabei, auch was die Bandbreite angeht, einfach skalieren können.

Von da aus geht es weiter zum Anwendungsdesign – der Fokus des zweiten Beitrags. Sind die verschiedenen Datenquellen einmal angebunden und erste Applikationen entwickelt, braucht man auch hier ein paar Erfolgsmethoden, um die vielen Applikationen weiterentwickeln und warten zu können. Das wird dann besonders wichtig, wenn wir die erstellten Lösungen im Kontext bereits vorhandener Governance-Prozesse und BluePrints betrachten. Denn diese, bereits im Unternehmen in etablierten Bereichen wie Custom Solution Software oder Business Intelligence vorhandenen Richtlinien- und Handlungsempfehlungen, sollten auch hier gelten.

Datenschätze heben: Praxistipps im Blog, live auf der OOP2018

Auch das Thema Governance darf beim Betrieb eines Data Lakes nicht außer Acht bleiben. Durch ein übergreifendes Enterprise Architecture Management sind in den Unternehmen meist bereits Prozesse und Regeln installiert, an die sich CRM, Custom Solution oder BI-Plattformen halten müssen. Warum sollten diese Regeln nicht auch für Big-Data-Applikationen gelten? Das tun sie, aber nicht 1:1. Hier gilt es, einige Besonderheiten zu beachten. Wie Sie vorgehen können, erkläre ich im dritten Teil der Serie.

Sobald also alles eingerichtet ist, soll der Data Lake sicher in den dauerhaften Betrieb gehen. Eine Hand voll Tipps dazu gebe ich Ihnen im vierten und letzten Teil. Dieser Part ist aus meiner Sicht besonders wichtig, denn hat man mal eine Applikation aufgesetzt die Code in neue Erkenntnisse verwandelt, will man sie nicht gleich wieder missen. Was nützen der beste Algorithmus und die tollste Anwendung, wenn sie nur einem Prototypen passen, aber für nicht für einen dauerhaften Einsatz geeignet sind?

Mein erster Beitrag startet im Februar. Wer davor schon über das Thema Data Lake sprechen will, trifft mich auf der OOP 2018, Stand 2.4.