Ga direct naar inhoud

Beter forecasting resultaat met onze MLOps straat

Kilian Toelge, Marije van Haeringen
9 May 2023

In de reeks Data Stories zetten we verschillende Data Scientists van Capgemini Insights & Data in de spotlight om te vertellen over de toffe dataprojecten waar zij aan werken. In deze editie geven we je een kijkje in de werkzaamheden van Kilian Toelge en Marije van Haeringen.

Waar houden jullie je dagelijks mee bezig?

Kilian: “Een grote retailer heeft door middel van een Proof of Concept een eerste versie gemaakt van een voorspelmodel wat ervoor moet zorgen dat de juiste hoeveelheid voorraad beschikbaar is op de juiste distributielocatie, op het juiste moment. Als Machine Learning Engineers werken wij samen met een Data Scientist, om het initiële model te verbeteren en naar productie te brengen zodat stakeholders er daadwerkelijk gebruik van kunnen maken. Hiervoor hebben wij een MLOps straat ingericht die door middel van ML pipelines nieuwe modellen traint en naar productie brengt.”

Hoe hebben jullie deze MLOps straat opgezet?

Marije: “Onze architectuur bestaat uit verschillende stappen, als eerste in de lijn staat GitHub waar onze code opgeslagen staat. Jenkins wordt gebruikt om de CI/CD pipeline te draaien en daarmee automatisch de ML pipelines in Amazon SageMaker aan te maken. Met een key-vault slaan we verschillende secrets op zodat de Jenkins pipeline connectie kan maken met Amazon. We gebruiken Amazon EventBridge om de ML pipelines te triggeren. Hierbij hebben wij twee ML pipelines: een training pipeline en een inference pipeline. De nieuwste data wordt ingeladen vanuit snowflake en na de preprocessing steps wordt dit opgeslagen in Amazon S3. Vanuit daar wordt het verwerkt in de ML pipelines en worden de resulterende modellen in S3 en de voorspellingen in Snowflake opgeslagen.”

Kilian: “Wanneer de ML pipelines worden gerund worden er automatisch allerlei checks uitgevoerd die de data en model kwaliteit en drift bewaken. Op deze manier kunnen we monitoren of alle stappen goed worden doorlopen en het model nog even goed presteerd met nieuwe data. Onze backend (NodeJS) laadt de voorspellingen in vanuit Snowflake en de frontend (React) geeft deze weer in een interactief dashboard. Een business medewerker kan het dashboard gebruiken om inzichten te krijgen en signalen aan het logistieke team te versturen om de benodigde voorraad aan te vullen.”

Wat is het grootste voordeel van deze werkwijze?

Marije: “Een veel voorkomende valkuil bij Data Science projecten is dat er alleen gefocust wordt op het creeëren van een goed presterend model. Hierbij wordt de uiteindelijk toegevoegde business value achterwege gelaten. Door een MLOps straat in te richten met een bijbehorende UI applicatie geven wij de business de mogelijkheid om met de resultaten van het model te werken. Door vanaf moment één te focussen op een stabiele architectuur, waarin de pipelines en modellen worden gebouwd kan in de toekomst sneller worden geïtereerd over nieuwe model versies.”

Waar liggen jullie uitdagingen voor de komende tijd?

Kilian: “De komende tijd gaan we ons vooral richten op het verder professionaliseren van de setup. Het initiële model maakte voorspellingen op productfamilies, dit kan het model vrij accuraat maar het is minder waardevol dan voorspellingen op meer gedetailleerde product kenmerken. We willen voorspellingen doen per maat, kleur of stijl om het model waardevoller te maken voor de business. De uitdaging hierin is de enorme stijging van hoeveelheid data die hierbij komt kijken. Hiervoor zullen wij onze pipeline structuur meer modulair moeten maken en slimmer omgaan met ons geheugen management door bijvoorbeeld parallel computing te implementeren.”

Maak kennis met onze experts

Kilian Toelge

Data Scientist en Machine Learning Engineer
Kilian specialiseert zich in het creëren van op maat gemaakte AI oplossingen.

Marije van Haeringen

Machine Learning Engineer
Marije is gespecialiseerd in het optimaliseren van machine learning modellen door middel van MLOps.