Ga direct naar inhoud
webbanner v1

Een futuristische benadering van datamanagement: go modern or go home

Gezien de grote impact van data in moderne markten is het niet gek dat steeds meer organisaties een datagedreven cultuur omarmen. Dat gaat niet vanzelf. Data neemt continu toe, in zowel hoeveelheid als complexiteit. Een nieuwe benadering vanuit dataplatforms is daarom wenselijk.

  • De hoeveelheid en complexiteit van data neemt sneller toe dan we ooit hadden verwacht.
  • Organisaties moeten snel een betrouwbare, gecentraliseerde oplossing hebben voor de vergaring, bewerking, opslag, transformatie, analyse en opschoning van hun grote hoeveelheden data.
  • Een modern dataplatform voorziet in de overall databehoeften van organisaties.
  • Het geheim van moderne dataplatforms: ze zijn gebaseerd op cloud computing.

Gezien de grote impact van data in moderne markten is het niet gek dat steeds meer organisaties een datagedreven cultuur omarmen. Dat gaat niet vanzelf. Data neemt continu toe, in zowel hoeveelheid als complexiteit. Een nieuwe benadering vanuit dataplatforms is daarom wenselijk.

Nu zowel de hoeveelheid als de complexiteit van data hand over hand toeneemt, worden organisaties geconfronteerd met allerlei uitdagingen als het gaat om de verwerking, opslag en analyse van data, en diverse problemen gerelateerd aan kwaliteitsbewaking en governance. Dit alles maakt het moeilijker dan ooit om data goed te beheren en analyseren.

Data biedt inzicht in het gedrag van consumenten. Marketeers vertalen dat inzicht naar concurrentievoordeel[1]. Organisaties kunnen dankzij inzicht in de wensen en behoeften van de consument bovendien hun producten en diensten verbeteren. Het is dus niet vreemd dat big data en AI erg aantrekkelijk zijn voor organisaties. Sterker nog: 97,2% van alle organisaties investeert erin[2]. Dit hoge percentage geeft ook de pure noodzaak weer die organisaties voelen. Hun data neemt als gezegd razendsnel toe, in hoeveelheid en complexiteit. Het is zaak het een en ander onder controle te krijgen en te houden.

EERSTE UITDAGING: REGELGEVING ROND DATABESCHERMING

De uitdaging ontstond toen regelgevers rond databescherming druk begonnen uit te oefenen op organisaties. Denk bijvoorbeeld aan de General Data Protection Regulation (GDPR), die in mei 2018 van kracht werd. Deze schreef voor dat Europese organisaties zich meer bewust moesten worden van het gebruik en de opslag van hun data en daar in het vervolg op een gedegen manier mee om moesten gaan. Niet voldoen aan de regelgeving resulteert in flinke financiële boetes. GDPR implementeerde regels over alle aspecten van de verwerking, opslag en toegang tot persoonlijke data.

Het wijdt ook een heel hoofdstuk aan de beveiliging van dataverwerking – van encryptie tot het bewaken van de vertrouwelijkheid, integriteit, beschikbaarheid en robuustheid van verwerkingssystemen en -diensten.

Als de regels niet worden gerespecteerd kunnen de Europese autoriteiten boetes van tot wel €20 miljoen opleggen, of 4% van de wereldwijde omzet in het voorafgaande financiële jaar; welke van de twee het hoogste bedrag oplevert wordt gekozen. Google kreeg op deze manier bijvoorbeeld een boete van $150 miljard. En Google was niet de enige grote naam die in verband is gebracht met overtreding van GDPR. Andere grote bedrijven als Amazon, WhatsApp, H&M en Facebook hebben ook al dergelijke boetes moeten betalen.

Banken trof hetzelfde lot. Danske Bank, de grootste bank van Denemarken en een voormalig lid van de Fortune Global 500, moest al eens 10 miljoen Deense Kroon betalen wegens overtreding van GDPR-regels over data-opslag.

TWEEDE UITDAGING: TOENAME VAN DATA

Deze regels waren niet de enige uitdaging waar organisaties mee te maken kregen. De COVID-19 pandemie zorgde ervoor dat mensen warden gedwongen om thuis te gaan werken en studeren. Door dezelfde oorzaak namen streaming en andere vormen van thuis-entertainment een hoge vlucht.

De hoeveelheid data nam daardoor toe – en veel harder dan eerder was voorspeld. Die groei zet door. Volgens Statista zal de totale hoeveelheid die wereldwijd wordt gecreëerd, opgeslagen, gekopieerd en geconsumeerd de komende vijf jaar toenemen tot meer dan 180 Zettabytes[3]. Deze data is op zich betekenisloos en waardeloos; mensen kunnen er niets mee. Data moet worden verwerkt en opgeschoond en door de juiste tools worden omgezet naar informatie.

Die informatie moet vervolgens worden opgeslagen op een betrouwbare, makkelijk toegankelijke en veilige manier. De resulterende informatie wordt gebruikt door organisaties om waarde mee te creëren. De complexiteit van deze data zit hem niet alleen in de opslag, beveiliging en kwaliteit, maar ook in de afkomst; data is afkomstig van verschillende systemen en processen en kent verschillende formats (gestructureerd, semi-gestructureerd, ongestructureerd).

80-90% is van die laatste categorie: ongestructureerd dus. En de meeste organisaties kunnen daar niet mee omgaan. Om precies te zijn beschouwt 95% van de organisaties ongestructureerde data als een van de voornaamste problemen voor de business, samen met de toenemende bedreiging van data-inbreuken en cyberaanvallen.

Ziedaar de reden waarom organisaties dringend een betrouwbare, gecentraliseerde oplossing nodig hebben voor de bewerking, opslag, transformatie, analyse en opschoning van hun grote hoeveelheden data. Die oplossing moet bovendien veilig zijn en organisaties in staat stellen om hun data op een compliant manier te beheren. Het moderne dataplatform biedt die oplossing. Het is een combinatie van inter-operabele, schaalbare en vervangbare technologieën die in samenhang invulling geven aan de overall data-behoeften van de organisatie[4]. Het dataplatform maakt het mogelijk data te vergaren, op te slaan, te bewerken, op te leveren en te beheren en biedt ook nog beveiliging voor gebruikers enapplicaties. Moderne data-platforms bestaan gewoonlijk uit lagen; in figuur 1 tonen we een chematische weergave van hoe dat eruit ziet.

Figuur 1: De gelaagdheid van moderne dataplatforms

Het geheim van moderne dataplatforms is dat ze zijngebaseerd op cloud computing. Daardoor bieden ze redundante, betaalbare, schaalbare opslag en verwerking, op basis van een abonnementsvorm, waarmee je kunt voldoen aan alle databehoeften van de organisatie. Om dezelfde reden kunnen moderne dataplatforms schaalbare datapipelines faciliteren die grote hoeveelheden data aankunnen. Er komen steeds meer tools en functionaliteiten beschikbaar, waarmee organisaties steeds meer controle krijgen over hun data en eenvoudig nieuwe databronnen kunnen toevoegen.

ETL-processen worden eenvoudiger en de complexiteit van data neemt af; data-analyse wordt daardoor sneller en beter, waardoor betrouwbare inzichten ontstaan die van waarde zijn bij besluitvorming, rapportage en compliance. Deze moderne platforms zijn dus niet voor niets populair. Implementatie van een modern dataplatform is ook om een andere reden aan te raden: alleen zo kun je blijvend inspelen op de steeds sneller veranderende wensen van de klant en alleen zo kun je de concurrentie bijblijven of voorblijven.

Multiple Cloud-providers hebben alle componenten in huis om zo’n platform te kunnen bouwen. Azure heeft bijvoorbeeld Azure Data Lake Storage Gen 2 (ADLS Gen 2) reintroduced, als basis voor de bouw van dataplatforms in Azure. Dit is een complete set aan capabilities die de vergaring, bewerking, monitoring en analyse van data mogelijk maakt. ADLS Gen 2 heeft meer dan 90 ingebouwde connectoren met een doorvoersnelheid van tot 5 GB/s.

Daardoor is het platform in staat om data op een schaalbare, veilige manier te vergaren uit verschillende bronnen en op te slaan op een centrale locatie. Het is dus niet langer nodig om verschillende data-silo’s aan te houden. Encryptie voor data wordt ondersteund, zowel voor data die niet wordt gebruikt als data die wordt getransporteerd. De oplossing is ook kostenefficiënt, dankzij het pay as you go-model en de mogelijkheid om opslag en verwerkingskracht separaat te schalen. Dat laatste is niet mogelijk bij on-premise data lakes.

HET ONTWERPEN VAN MODERNE DATA-PLATFORMS

Om optimaal te kunnen profiteren van dit soort mogelijkheden, moeten organisaties bij het ontwerp van een modern dataplatform uitgaan van de organisatiebrede strategie. Pas als alle aspecten daarvan in kaart zijn gebracht, kan het platform gebouwd worden. Organisaties moeten data bovendien als een geheel beschouwen in plaats van ze op te breken in stukjes. Zo krijg je niet alleen een beeld van hoe verschillende systemen data produceren en hoe die data worden gebruikt, opgeslagen en verwerkt, maar ook wat daarin de samenhang is. Organisaties moeten verschillende scenario’s overwegen en denken in het grotere geheel, en geen onnodige data silo’s creëren of onnodige ketenafhankelijkheden; daarmee zouden alleen maar nieuwe, onnodige governance-issues ontstaan. Alle transformaties die plaatsvinden moeten voortdurend gemonitord worden; wie wat doet met welke dataset moet constant worden gevolgd. Dit is de enige manier om te kunnen voldoen aan regelgeving en data te kunnen herleiden naar de uiteindelijke bron. Dit as whole-perspectief moet ook het uitgangspunt zijn bij de keuze voor de componenten van het moderne dataplatform. Technische expertise is een uitdaging op zich geworden, met het steeds maar verder groeiende aanbod van data tools. Sterker nog: 50% van Amerikaanse beslissers en 39% van Europese beslissers geeft aan dat een gebrek aan technische expertise tot de top 5 van uitdagingen behoort als het om data gaat. Het is dus goed dat softwareleveranciers en verleners van consultancydiensten de handen ineen slaan om samen met hun klanten de beste datastrategieën en best practices vast te stellen, om zo de juiste tools optimaal te kunnen benutten en kennis erover te delen in de organisatie.

De adoptie van moderne architecturen en technologieën heeft samen met de recente pandemie geresulteerd in verschillende data-uitdagingen. Deze uitdagingen kunnen worden overwonnen met een professioneel, modern dataplatform. Maar hoewel de combinatie van dataplatforms en cloud computing allerlei mogelijkheden en oplossingen biedt, blijven veel data-uitdagingen overeind. Organisaties kunnen alleen optimaal profiteren van modern dataplatforms als ze genoeg tijd en moeite stoppen in het ontwerp ervan. Er is echte data thinking en data architecture nodig om de datauitdagingen van nu aan te kunnen gaan.

Asma Cherni

Data community lead

Asma is design & implementation lead in moderne, op Azure Cloud gebaseerd dataplatforms. Ze helpt klanten met nieuwe data-oplossingen en –strategieën.


[1] Erevelles, S., Fukawa, N. & Swayne, L., 2016. Big Data consumer analytics and the transformation of marketing. Journal of Business Research, 69(2), pp. 897-904.

[2] Davenport, T. H. & Bean, R., 2019. Data and Innovation How Big Data and AI are Accelerating Business Transformation, Boston, NewYork: NewVantage Partners.

[3] statista., 2021. Volume of data/information created, captured, copied, and consumed worldwide from 2010 to 2025(in zettabytes), sl: https://www.statista.com/.

[4] MongoDB, 2022. What is a data Platform, sl: https://www.mongodb.com/