Big Data is al jaren een bekend verschijnsel. Echter, de laatste tijd hoor ik ook regelmatig de term small data vallen. Maar wat is dat nou eigenlijk en wat heeft het voor nut? In deze blog zal ik een korte introductie geven en duidelijk maken waar de toepassingen liggen.

De geschiedenis van Small Data loopt parallel met die van Big Data.Voordat de term Big Data uitgevonden was noemden we Small Data simpelweg Data. Big Data wordt gekenmerkt door de vier V’s: Volume (hoeveelheid), Variety (verschillende formaten), Velocity (data streams) en Veracity (onzekerheid van gegevens). De tegenhanger hiervan is Small Data; gegevens in omvang “klein” genoeg om door mensen geïnterpreteerd te worden. Dit maakt het mogelijk om van deze data informatie te maken en op te acteren.

Een voorbeeld waarmee zowel Big als Small Data kunnen worden  geïllustreerd is een Internet of Things (IoT) stream. Stel in een fabriekshal staan tientallen machines eniedere fractie van een seconde verstuurt zo’n machine een statusupdate die vervolgens centraal worden verwerkt. Zo genereren deze machines een enorme bak aan data die door middel van datamining kan worden geanalyseerd om, bijvoorbeeld, te voorspellen wanneer een machine preventief een onderhoudsbeurt nodig heeft. Dit is een perfect voorbeeld van een Big Data toepassing. Maar ieder individueel berichtje is Small Data, wanneer er een fout optreedt in een machine moet hier direct op geacteerd worden door een monteur te laten langskomen.

De enige manier om Big Data voor mensen behapbaar te maken is door het te visualiseren in een kleine, visueel aantrekkelijke vorm, bijvoorbeeld een histogram of een andersoortige grafiek. Op basis van de interpretatie van deze grafiek kunnen ook weer acties volgen. Dit is precies de definitie van Small Data en geeft weer hoe deze twee concepten met elkaar verweven zijn.

Zoals Martin Lindstrom (Deense auteur) het samenvat: Big Data draait om correlatie, terwijl Small Data focust op causaliteit. Bij gebruik van Big Data wordt op basis van historische data door middel van slimme algoritmes gezocht naar patronen in deze brij aan gegevens. Maar hoe slim deze datamining algoritmes ook zijn, het resultaat is nooit beter dan de input. Small Data gaat om het “waarom”.

Uit Lindstroms onderzoek naar Small Data blijkt dat veel innovaties voortkomen uit (menselijke) observaties. Innovatie kan het resultaat zijn van geplande brainstorm sessies en het voortbouwen op bestaande technologieën, maar vaak is het de observatie van een individu. Door gebruik te maken van Small Data kunnen werkelijk nieuwe inzichten tot stand komen. Soms leiden schijnbaar triviale observaties tot een hypothese die vervolgens met Big Data onderzocht of geverifieerd kan worden. Een sprekend voorbeeld vind ik dat van Ingvar Kamprad, de oprichter van IKEA. Deze man zat, zelfs toen hij CEO was, nog steeds regelmatig bij de kassa’s van IKEA om mensen te observeren. Op de vraag waarom hij dat deed was zijn antwoord: “Dit is het goedkoopste, meest efficiënte marktonderzoek ooit”. Op basis van observaties, Small Data, tot nieuwe ideeën komen.

Big Data kan correlaties ontdekken die onmogelijk te vinden zijn in kleinere datasets, maar ook uit kleinere datasets kunnen interessante inzichten verkregen worden. Een voorbeeld is Amazon: er is absoluut Big Data nodig om soortgelijke producten aan klanten voor te stellen, maar ook uit een kleine subset van 10.000 transacties zijn inzichten te verkrijgen. Het is dus echt afhankelijk van de business vraagstukken of het noodzakelijk is om Big Data in te zetten of dat er ook met “traditionele” middelen acceptabele oplossingen kunnen worden verkregen. Nog een voorbeeld, om klantsentiment te pijlen is het voor veel bedrijven nog altijd veel goedkoper en efficiënter om enquêtes te versturen en response op mailinglijsten te registreren. Uiteraard sluit dit niet uit dat het voor ondernemingen met een heel groot klantenbestand wel loont om complexe machine learning algoritmes los te laten op Twitter feeds, Google Analytics, etc. om inzicht in klanten te verkrijgen

Bronnen:
http://www.abacus.nl/big-data-vs-small-data/
http://knowledge.wharton.upenn.edu/article/small-data-new-big-data/
https://datafloq.com/read/small-data-vs-big-data-back-to-the-basic/706