Business Data Lake: Von der Quelle zum See

Publish date:

Wer an einen Business Data Lake denkt, denkt an Schätze: goldwerte Informationen, geschürft aus Daten und Algorithmen. Doch wie fließen diese überhaupt in den See?

RSS-Feed abonnieren

Seien es Erkenntnisse gewonnen aus Einzelquellen wie Social Media oder aus dem Zusammenschluss zweier unterschiedlicher Datenpools – alle diese Datenbasen müssen irgendwie in den Data Lake eingespeist werden. Welches Vorgehen sich meiner Meinung nach als bestes etabliert hat, möchte ich in Teil 1 dieser Blogreihe erläutern.

Die Anbindung verschiedener Quellsysteme an einen Data Lake ist nicht ganz ohne: Verschiedene Schnittstellen und diverse Tools am Markt machen die Angelegenheit recht kompliziert. Aber mein Blogartikel soll hier eine erste Hilfestellung sein.

Datenbanksysteme können Sie zum Beispiel mit dem Hadoop-Bordmittel sqoop oder Flume anbinden. Letzteres eignet sich auch für Systeme mit einer Webschnittstelle wie REST. Oft kommen aber auch selbst entwickelte Applikationen zum Beispiel auf Basis von Java in Frage, da vielleicht schon Java-Anwendungen existieren, die sich mit dieser Quelle verbinden. Das führt aber schnell zu einem unübersichtlichen Zoo an Einzellösungen, der schwer zu betreiben, zu erweitern und zu warten ist.

Anbindung à la Eigenbau oder Komplettlösung von der Stange?

Vor vielen Jahren stand man im BI- und DWH-Umfeld vor der gleichen Frage: Entwickle ich alle Anbindungen zwischen meinen Systemen und dem Data Warehouse selbst oder nutze ich eine fertige „All-in-One“-Lösung? ETL-Tools wie Talend, Oracle oder Informatica haben sich hier gut etabliert und sind erste Wahl. Sie bieten neben dem Vorteil einer einfachen Entwicklung – die Tools nutzen jeweils grafische Oberflächen anstelle von reinem Quellcode – auch eine leichtere Wartbarkeit und einfachen Betrieb.

Figure 1: Über eine Ingest-Plattform lassen sich verschiedenste Datenquellen zentral an den Data Lake anbinden.

 

Never change a winning system: Warum bei Big Data nicht dasselbe tun? Denn die gängigen Werkzeuge, die fester Bestandteil der BI-Landschaft sind, bieten auch Konnektoren zu Big-Data-Technologien an. Dieser etablierte Ansatz über „Ingest-Suiten“ liefert  eine Reihe von Vorteilen:

  • Die Tools sind bereits im Unternehmen vorhanden und müssen höchstens noch hinsichtlich Lizenz und/oder Funktionsumfang ergänzt werden.
  • Das Know-how zur Entwicklung und für den Betrieb solcher Ingest-Datenflüsse ist ebenfalls vorhanden und muss sich nur in Richtung der Big-Data-Technologien erweitern.
  • Anstatt vieler kleiner Einzellösungen, die auch noch unterschiedlich implementiert wurden, haben Sie am Ende eine zentrale Komponente in der IT-Landschaft, über die Sie den Data Lake füllen können.
  • Durch das zentrale Tool sinkt die Fehleranfälligkeit der Datenflüsse (ich kann zum Beispiel direkt auf die Datenstrukturen in meinem Datenfluss zugreifen und muss nicht die Felder einzeln eintippen) und die Wiederverwendbarkeit steigt. Denn einmal entwickelte (Teil-)Module wie Kontext-Management (sprich, befinde ich mich auf der Test- oder Produktiv-Umgebung) oder die Datenkompression können Sie immer wieder einsetzen.
  • Sie können eine Vielzahl an unterschiedlichsten Quellsystemen, vom Datenbanksystem über Webservices und Message-Systeme bis hin zu Cloud- und filebasierten Systemen, inklusive proprietärer Systeme wie SAP anbinden.
  • Durch die Verwendung einer zentralen Ingest-Plattform und die Integration eines Metadatenmanagement kann auch sehr einfach ein Data Inventory befüllt werden. Dadurch verfügen die Unternehmen auch an dieser Stelle über eine durchgängige Data Lineage, die gerade für GDPR-Konformität wichtig ist.

Daher ist dies meine ganz klare Empfehlung: Auch wenn im Umfeld von Hadoop, sqoop oder Flume bereits flexible und leistungsfähige Tools vorhanden sind, decken diese nur einen kleinen Teil ab. Spätestens, wenn Sie neben einer Oracle-Datenbank auch noch ein Azure-Dienst und ein SAP-System andocken, werden Sie auf größere Plattformen wie die von Talend oder Informatica setzen müssen. Und auch der IT-Betrieb wird es Ihnen danken, wenn sie nur eine Plattform und nicht 100 Einzelapplikationen betreuen müssen.

Weitere Posts

Application Management

DevOps unverzichtbar für Business-zentriertes Application Management

Alfred Aue
Date icon September 26, 2018

Höhere Komplexität erfordert engere Zusammenarbeit und Automatisierung

IT-Trends

Künstliche Intelligenz: Angriff auf die Unpünktlichkeit

Stefan Sack
Date icon September 11, 2018

Ganz gleich, wie kurz die Reise ist: Von A nach B kann viel passieren – und schon wird es...

Cybersecurity

Schwerpunkt Commerce: Datensicherheit als USP

Dr. Paul Lokuciejewski
Date icon September 6, 2018

Ein sicherer Einkauf ist ein Pfund, mit dem Händler wuchern können.

cookies.

Mit dem Fortsetzen des Besuchs dieser Website akzeptieren Sie die Verwendung von Cookies.

Für mehr Informationen und zur Änderungen der Cookie-Einstellungen auf Ihrem Computer, lesen Sie bitte Privacy Policy.

Schließen

Cookie Information schließen