{"id":709228,"date":"2024-01-29T08:51:33","date_gmt":"2024-01-29T08:51:33","guid":{"rendered":"https:\/\/www.capgemini.com\/nl-nl\/?post_type=employee-testimonial&#038;p=709228"},"modified":"2025-03-20T10:36:54","modified_gmt":"2025-03-20T10:36:54","slug":"back-to-basics-hoe-data-cleaning-al-het-verschil-maakt","status":"publish","type":"employee-testimonial","link":"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/","title":{"rendered":"Back to basics: hoe data cleaning \u00e1l het verschil maakt"},"content":{"rendered":"<\/header>\n\n\n<section class=\"wp-block-cg-blocks-group undefined section section--article-content\"><div class=\"article-main-content\"><div class=\"container\"><div class=\"row\"><div class=\"col-12 col-md-1\"><nav class=\"article-social\"><ul class=\"social-nav\"><li class=\"ip-order-fb\"><a href=\"https:\/\/www.facebook.com\/sharer\/sharer.php?u=https:\/\/www.capgemini.com\/nl-nl\/?post_type=employee-testimonial&amp;p=709228\" target=\"_blank\" rel=\"noopener noreferrer\" title=\"wordt in een nieuw venster geopend\"><i aria-hidden=\"true\" class=\"icon-fb\"><\/i><span class=\"sr-only\">Facebook<\/span><\/a><\/li><li class=\"ip-order-tw\"><a href=\"https:\/\/twitter.com\/intent\/tweet?url=https:\/\/www.capgemini.com\/nl-nl\/?post_type=employee-testimonial&amp;p=709228&amp;text=Back%20to%20basics%3A%20hoe%20data%20cleaning%20%C3%A1l%20het%20verschil%20maakt\" target=\"_blank\" rel=\"noopener noreferrer\" title=\"wordt in een nieuw venster geopend\"><i aria-hidden=\"true\" class=\"icon-tw\"><\/i><span class=\"sr-only\">Twitter<\/span><\/a><\/li><li class=\"ip-order-li\"><a href=\"https:\/\/www.linkedin.com\/sharing\/share-offsite\/?url=https:\/\/www.capgemini.com\/nl-nl\/?post_type=employee-testimonial&amp;p=709228&amp;text=Back%20to%20basics%3A%20hoe%20data%20cleaning%20%C3%A1l%20het%20verschil%20maakt\" target=\"_blank\" rel=\"noopener noreferrer\" title=\"wordt in een nieuw venster geopend\"><i aria-hidden=\"true\" class=\"icon-li\"><\/i><span class=\"sr-only\">Linkedin<\/span><\/a><\/li><\/ul><\/nav><\/div><div class=\"col-12 col-md-11 col-lg-10\"><div class=\"article-text article-quote-text\">\n<p>[ENGLISH BELOW]<\/p>\n\n\n\n<p><strong>Gaaf, zo\u2019n flashy machine learning-model. Maar zonder een goede dataset ben je nergens. Slechte input levert zelfs met een ingewikkeld model alsnog slechte output. Data engineers Frances Dreyer en Andre Marques breken daarom in hun Tech Talk een lans voor de cleane dataset. En schoon schip maken met je data kan zo makkelijk of ingewikkeld als je zelf wilt. Frances en Andre lichten in deze blog vast een tipje van de sluier.<\/strong><\/p>\n\n\n\n<p>Een snelle online zoektocht bracht ons meteen bij een interessante dataset die we ook als voorbeeld noemen in onze Tech Talk. Eentje met geanonimiseerde pati\u00ebntgegevens over risicofactoren voor hart- en vaatziekten. Met een visuele scan is in een oogopslag te zien dat de set incompleet is; er zijn flink wat gaten te zien. Het gevaar als je deze cijfers gebruikt? Verkeerde voorspellingen. En worst case: mensen die niet op tijd gewaarschuwd worden voor de gezondheidsrisico\u2019s die ze lopen.<\/p>\n\n\n\n<p>De noodzaak van goede data begrijpt iedereen aan de hand van zo\u2019n simpel voorbeeld. Toch merken wij in de praktijk dat lang niet elke scientist daar veel of \u00fcberhaupt aandacht aan besteedt. Meestal geven zij voorrang aan het model waaraan ze de dataset voeden. Wie w\u00e9l een dataset wil checken, maar niet weet waar te beginnen, komt online bedrogen uit. Wij vonden wel artikelen die delen van het proces beschreven, maar geen enkele die het hele proces tot in detail besprak. Daarom vonden wij het hoog tijd voor een plek waar je aan de hand van een paar stappen weet hoe je op een goede dataset uitkomt.<\/p>\n\n\n\n<p>In onze Tech Talk doorlopen we die stappen uitgebreid, in deze blog nemen we je alvast mee. En je zal zien: het is best simpel.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-1-visualiseer-wat-er-ontbreekt\">1. Visualiseer wat er ontbreekt<\/h3>\n\n\n\n<p>Verreweg de makkelijkste stap met hulp van een notebook. Zoals Python Notebook of Google Colab Notebook. In een notebook hoef je slechts een stukje code in te voeren, en boem: je krijgt letterlijk de gaten in je dataset in beeld. Door een beetje met een notebook te spelen kan je ook nog allerlei andere visualisaties maken, zoals bijvoorbeeld heat maps.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-2-identificeer-waarom-data-ontbreekt\">2. Identificeer waarom data ontbreekt<\/h3>\n\n\n\n<p>Ok\u00e9, je hebt gaten in je data gespot. Nu wil je weten waarom die data ontbreekt. Er kunnen drie redenen zijn. Wij gebruiken het voorbeeld van de kat die naar de dierenarts gaat om gewogen te worden. Die data kan op de volgende drie manieren incompleet zijn:<\/p>\n\n\n\n<p>&#8211; Missing completely at random: door externe factoren, zoals een lege batterij in de weegschaal of de batterij die wordt opgeladen, hierdoor staat het gewicht van de kat niet geregistreerd.<\/p>\n\n\n\n<p>&#8211; Missing at random: De kat was ziek en kon niet op de afspraak komen. De gegevens hebben een kolom &#8216;ziek&#8217; en wanneer die kolom waar is, heeft de kolom &#8216;gewicht&#8217; een ontbrekende waarde. Die ontbrekende waarde is er door de volledig ingevulde klolom &#8216;ziek&#8217;.<\/p>\n\n\n\n<p>&#8211; Missing not at random: het gewicht van de kat is niet ingevuld, want de eigenaar schaamde zich voor het gewicht van de kat. De data ontbreekt dus bewust.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-3-elimineer-of-vul-de-gaten\">3. Elimineer \u00f3f vul de gaten<\/h3>\n\n\n\n<p>Afhankelijk van de reden bij stap twee kan je bepalen of je bijvoorbeeld een hele kolom data verwijdert. Dat kan je overigens vaak aan de hand van visualisatie al doen. Als die bijvoorbeeld laat zien dat bijvoorbeeld meer dan 95% van de data uit een kolom ontbreekt, dan kan je die kolom beter helemaal schrappen. Je kunt dit ook al bij minder ontbrekende data besluiten.<\/p>\n\n\n\n<p>Je kunt ook de gaten in je data invullen met het gemiddelde, de modus of de mediaan van de rest van de data. Welke van deze opties het meest geschikt is en waarom, leggen we in onze Tech Talk uit. Hiervoor maak je gebruik van statistisch simpele of geavanceerde methoden. Maak je geen zorgen, je kunt het zo simpel houden als je wilt. Zelfs eenvoudige methoden maken al veel verschil voor de kwaliteit van je dataset.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-4-controleer\">4. Controleer<\/h3>\n\n\n\n<p>Tot slot wil je testen of de ingevulde dataset ook daadwerkelijk waardevol is. Dit doe je aan de hand van een test- en een trainingset. Hoe precies, vertellen we ook weer in onze Tech Talk.<\/p>\n\n\n\n<p>Wat je belangrijkste takeaway moet zijn wat ons betreft? Dat we bewust moeten zijn van onze verantwoordelijkheid voor de kwaliteit van data. Wij gaan niet alleen over de ontwikkeling van modellen, maar ook over hoe clean onze datasets zijn. Zelfs door heel minimaal data op te schonen, maken we al een enorme sprong voorwaarts in onze resultaten.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-kijk-hier-de-tech-talk-terug\">Kijk hier de Tech Talk terug!<\/h3>\n\n\n\n<p>De gaten opvullen of niet, dat is steeds weer de vraag als je met datasets werkt. Als je ze niet opvult, de ontbrekende data dan maar gewoon verwijderen? En als je ze wel opvult, hoe dan? Moet je je eigenlijk ook druk maken over ontbrekende data? In hun Tech Talk geven Frances en Andre antwoord op al deze vragen. E\u00e9n antwoord: ja, je moet je altijd iets aantrekken van ontbrekende data. Wat je daarna doet staat alleen niet vast.<\/p>\n\n\n\n<figure class=\"wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio\"><div class=\"wp-block-embed__wrapper\">\n<iframe loading=\"lazy\" title=\"Data cleaning - Techniques for identifying and filling in missing values\" width=\"960\" height=\"540\" src=\"https:\/\/www.youtube.com\/embed\/ZM2CBY2njyo?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n<\/div><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-over-frances-dreyer\">Over Frances Dreyer<\/h3>\n\n\n\n<p>Wanneer ze niet in datasets duikt, vind je Frances achter de Franse hoorn waarmee ze menig orkest versterkt. Of ze is in de weer met haar haaknaalden, een hobby die na de coronatijd is blijven steken. Ook na vijf jaar zoekt ze in haar werk als data engineer continu naar nieuwe uitdagingen. Zeker als het gaat om technieken en technologie rondom big data.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-over-andre-marques\">Over Andre Marques<\/h3>\n\n\n\n<p>Data heeft de kracht om onze levens te verbeteren, en daar zet Andre zich al tien jaar dagelijks voor in. Het meest belonend vindt hij het als data waar hij aan heeft gewerkt onze manier van denken verandert. Maar het leven is meer dan cijfers, Andre geniet minstens evenveel van nieuw eten ontdekken met zijn vrouw, podcasts luisteren en hardlopen.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h1 class=\"wp-block-heading\" id=\"h-back-to-basics-how-data-cleaning-makes-all-the-difference\">Back to basics: how data cleaning makes all the difference<\/h1>\n\n\n\n<p><strong>The flashy machine learning models get all the attention, but they won\u2019t get you anywhere without a good data set. Even a complicated model will produce bad output if you give it bad input. So in their Tech Talk, data engineers Frances Dreyer and Andre Marques break a lance for a clean data set. There are easy ways to give your data a spring cleaning, and there are hard ways to do it. In this blog, Frances and Andre explain all about it.<\/strong><\/p>\n\n\n\n<p>A simple example like this can help everyone understand the importance of good data. But in the real world, we\u2019ve noticed that a lot of scientists don\u2019t pay much attention to it. They usually focus more on the model they\u2019re feeding with the data set. And those who do want to check their data sets, but don\u2019t know where to start, won\u2019t find much help online. We found some articles that described parts of the process, but none that discussed the entire process in detail. So we thought it was high time to create a place that explains how to get a good data set in just a few steps.<\/p>\n\n\n\n<p>We talk about those steps in detail in our Tech Talk, and this blog will give you a good idea. And you\u2019ll see: it\u2019s really quite simple.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">1. Visualize what\u2019s missing<\/h2>\n\n\n\n<p>By far the easiest step with the help of a notebook like Python Notebook or Google Colab Notebook. With a notebook, you just have to enter a piece of the code, and bam: you literally see all the holes in the data set. You can also play around with a notebook to create other visualizations, like heat maps.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">2. Identify why data are missing<\/h2>\n\n\n\n<p>Now that you\u2019ve identified the holes in your data, you want to know why they\u2019re missing. There are three possible reasons. We use the example of taking a cat to a veterinarian to be weighed. The data can be incomplete in one of the following three ways:<\/p>\n\n\n\n<p>&#8211; Missing completely at random: the cat can\u2019t be weighed due to external factors, like the scale\u2019s battery being empty or recharged.<\/p>\n\n\n\n<p>&#8211; Missing at random: The cat was sick, and didn\u2019t come to the appointment. The data have a column for \u2018sick\u2019, and if that column is true, then the \u2018weight\u2019 column is missing a value. That missing value is due to the complete column \u2018sick\u2019.<\/p>\n\n\n\n<p>&#8211; Missing not at random: the cat\u2019s weight hasn\u2019t been filled in, because the owner was embarrassed at how fat it is. So the data are missing on purpose.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">3. Eliminate or fill the gaps<\/h2>\n\n\n\n<p>Depending on the reason from step two, you can determine if it\u2019s necessary to delete an entire column of data, for example. You can often do that based on the visualization. For example, if it shows that more than 95% of the data in a column are missing, then you can just delete the column entirely. You can also decide to do that if fewer data are missing.<\/p>\n\n\n\n<p>Or you can fill the data with the average, the modal or the median of the rest of the data. We\u2019ll explain which of these options is most suitable and why in our Tech Talk. You can use either simple or advanced statistical methods, but remember that you can keep it as simple as you want. Even simple methods can make a difference in the quality of your data set.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">4. Check<\/h2>\n\n\n\n<p>Finally, you want to test if the completed data set is actually valuable. You can do that using a test- and training set. We\u2019ll explain how to do that exactly in our Tech Talk.<\/p>\n\n\n\n<p>But the most important takeaway is: that we need to be aware of our responsibility for the quality of data. We\u2019re not just responsible for developing models, but also the cleanliness of our data sets. Even a minor data cleanup can make a huge step forwards in our results.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Tech Talk: Data cleaning \u2013 Techniques for identifying and filling in missing values<\/h2>\n\n\n\n<p>When you work with data sets, the question you face is always whether or not to fill in the gaps. If you don\u2019t fill them in, should you just delete the missing data? And if you do want to fill them in, how would you do it? Should you even be worrying about missing data? In their Tech Talk, Frances and Andre answer all of these questions and more. But to get you started: yes, you should always be worried about missing data. What you do about it, though, is up to you.<\/p>\n\n\n\n<figure class=\"wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio\"><div class=\"wp-block-embed__wrapper\">\n<iframe loading=\"lazy\" title=\"Data cleaning - Techniques for identifying and filling in missing values\" width=\"960\" height=\"540\" src=\"https:\/\/www.youtube.com\/embed\/ZM2CBY2njyo?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n<\/div><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">About Frances Dreyer<\/h2>\n\n\n\n<p>When she\u2019s not diving into data sets, you can find Frances practicing on her French horn to play in one of her several orchestras. Or she might be knitting something warm; a pandemic pastime that she hasn\u2019t let go of. And even after five years working as a data engineer, she\u2019s still looking for new challenges. Especially when it comes to techniques and technology related to Big Data.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">About Andre Marques<\/h2>\n\n\n\n<p>Data has the power to improve our lives, and Andre has been working to do that every day for the past 10 years. The most rewarding part of the job to him is when the data he\u2019s worked on change how we think about things. But life is more than just numbers, and Andre enjoys discovering new food with his wife, listening to podcasts and running just as much as working with data.<\/p>\n<\/div><\/div><\/div><\/div><\/div><\/section>\n","protected":false},"excerpt":{"rendered":"<p>Frances Dreyer &#038; Andre Marques<\/p>\n","protected":false},"author":503,"featured_media":713126,"template":"","meta":{"cg_dt_proposed_to":[],"cg_seo_hreflang_relations":"[]","cg_seo_canonical_relation":"","cg_seo_hreflang_x_default_relation":"{\"uuid\":\"1acbfc9d-c3b0-416a-bf46-8d0d08f97b36\",\"blogId\":\"\",\"domain\":\"\",\"sitePath\":\"\",\"postLink\":\"\",\"postId\":null,\"isSaved\":true,\"isCrossLink\":false,\"hasCrossLink\":false}","cg_dt_approved_content":true,"cg_dt_mandatory_content":false,"cg_dt_notes":"","cg_dg_source_changed":false,"cg_dt_link_disabled":false,"footnotes":"","cg_testimonial_custom_title":"","people_tel":"","people_email":"","featured_focal_points":""},"tags":[],"brand":[],"country":[],"grade":[313],"job_family":[316,333],"class_list":["post-709228","employee-testimonial","type-employee-testimonial","status-publish","has-post-thumbnail","hentry","grade-experienced-professionals","job_family-data-and-ai","job_family-quality-engineering-and-testing"],"yoast_head":"<!-- This site is optimized with the Yoast SEO Premium plugin v22.8 (Yoast SEO v22.8) - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Back to basics: hoe data cleaning \u00e1l het verschil maakt - Werken bij Capgemini<\/title>\n<meta name=\"description\" content=\"Gaaf, zo\u2019n flashy machine learning-model. Maar zonder een goede dataset ben je nergens. Slechte input levert zelfs met een ingewikkeld model alsnog slechte output. Data engineers Frances Dreyer en Andre Marques breken daarom in hun Tech Talk een lans voor de cleane dataset. En schoon schip maken met je data kan zo makkelijk of ingewikkeld als je zelf wilt. Frances en Andre lichten in deze blog vast een tipje van de sluier.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/\" \/>\n<meta property=\"og:locale\" content=\"nl_NL\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Back to basics: hoe data cleaning \u00e1l het verschil maakt\" \/>\n<meta property=\"og:description\" content=\"Gaaf, zo\u2019n flashy machine learning-model. Maar zonder een goede dataset ben je nergens. Slechte input levert zelfs met een ingewikkeld model alsnog slechte output. Data engineers Frances Dreyer en Andre Marques breken daarom in hun Tech Talk een lans voor de cleane dataset. En schoon schip maken met je data kan zo makkelijk of ingewikkeld als je zelf wilt. Frances en Andre lichten in deze blog vast een tipje van de sluier.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/\" \/>\n<meta property=\"og:site_name\" content=\"Capgemini Nederland\" \/>\n<meta property=\"article:modified_time\" content=\"2025-03-20T10:36:54+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.capgemini.com\/nl-nl\/wp-content\/uploads\/sites\/19\/2023\/05\/Tech_Talks_Frances-Dreyers_Andre_Marques.png\" \/>\n\t<meta property=\"og:image:width\" content=\"400\" \/>\n\t<meta property=\"og:image:height\" content=\"400\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Est. reading time\" \/>\n\t<meta name=\"twitter:data1\" content=\"10 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/\",\"url\":\"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/\",\"name\":\"Back to basics: hoe data cleaning \u00e1l het verschil maakt - Werken bij Capgemini\",\"isPartOf\":{\"@id\":\"https:\/\/www.capgemini.com\/nl-nl\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/www.capgemini.com\/nl-nl\/wp-content\/uploads\/sites\/19\/2023\/05\/Tech_Talks_Frances-Dreyers_Andre_Marques.png\",\"datePublished\":\"2024-01-29T08:51:33+00:00\",\"dateModified\":\"2025-03-20T10:36:54+00:00\",\"description\":\"Gaaf, zo\u2019n flashy machine learning-model. Maar zonder een goede dataset ben je nergens. Slechte input levert zelfs met een ingewikkeld model alsnog slechte output. Data engineers Frances Dreyer en Andre Marques breken daarom in hun Tech Talk een lans voor de cleane dataset. En schoon schip maken met je data kan zo makkelijk of ingewikkeld als je zelf wilt. Frances en Andre lichten in deze blog vast een tipje van de sluier.\",\"breadcrumb\":{\"@id\":\"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/#breadcrumb\"},\"inLanguage\":\"nl-NL\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"nl-NL\",\"@id\":\"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/#primaryimage\",\"url\":\"https:\/\/www.capgemini.com\/nl-nl\/wp-content\/uploads\/sites\/19\/2023\/05\/Tech_Talks_Frances-Dreyers_Andre_Marques.png\",\"contentUrl\":\"https:\/\/www.capgemini.com\/nl-nl\/wp-content\/uploads\/sites\/19\/2023\/05\/Tech_Talks_Frances-Dreyers_Andre_Marques.png\",\"width\":400,\"height\":400},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/www.capgemini.com\/nl-nl\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Employee Testimonials\",\"item\":\"https:\/\/www.capgemini.com\/nl-nl\/employee-testimonial\/\"},{\"@type\":\"ListItem\",\"position\":3,\"name\":\"Back to basics: hoe data cleaning \u00e1l het verschil maakt\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/www.capgemini.com\/nl-nl\/#website\",\"url\":\"https:\/\/www.capgemini.com\/nl-nl\/\",\"name\":\"Capgemini Nederland\",\"description\":\"Capgemini\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/www.capgemini.com\/nl-nl\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"nl-NL\"}]}<\/script>\n<!-- \/ Yoast SEO Premium plugin. -->","yoast_head_json":{"title":"Back to basics: hoe data cleaning \u00e1l het verschil maakt - Werken bij Capgemini","description":"Gaaf, zo\u2019n flashy machine learning-model. Maar zonder een goede dataset ben je nergens. Slechte input levert zelfs met een ingewikkeld model alsnog slechte output. Data engineers Frances Dreyer en Andre Marques breken daarom in hun Tech Talk een lans voor de cleane dataset. En schoon schip maken met je data kan zo makkelijk of ingewikkeld als je zelf wilt. Frances en Andre lichten in deze blog vast een tipje van de sluier.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/","og_locale":"nl_NL","og_type":"article","og_title":"Back to basics: hoe data cleaning \u00e1l het verschil maakt","og_description":"Gaaf, zo\u2019n flashy machine learning-model. Maar zonder een goede dataset ben je nergens. Slechte input levert zelfs met een ingewikkeld model alsnog slechte output. Data engineers Frances Dreyer en Andre Marques breken daarom in hun Tech Talk een lans voor de cleane dataset. En schoon schip maken met je data kan zo makkelijk of ingewikkeld als je zelf wilt. Frances en Andre lichten in deze blog vast een tipje van de sluier.","og_url":"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/","og_site_name":"Capgemini Nederland","article_modified_time":"2025-03-20T10:36:54+00:00","og_image":[{"width":400,"height":400,"url":"https:\/\/www.capgemini.com\/nl-nl\/wp-content\/uploads\/sites\/19\/2023\/05\/Tech_Talks_Frances-Dreyers_Andre_Marques.png","type":"image\/png"}],"twitter_card":"summary_large_image","twitter_misc":{"Est. reading time":"10 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/","url":"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/","name":"Back to basics: hoe data cleaning \u00e1l het verschil maakt - Werken bij Capgemini","isPartOf":{"@id":"https:\/\/www.capgemini.com\/nl-nl\/#website"},"primaryImageOfPage":{"@id":"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/#primaryimage"},"image":{"@id":"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/#primaryimage"},"thumbnailUrl":"https:\/\/www.capgemini.com\/nl-nl\/wp-content\/uploads\/sites\/19\/2023\/05\/Tech_Talks_Frances-Dreyers_Andre_Marques.png","datePublished":"2024-01-29T08:51:33+00:00","dateModified":"2025-03-20T10:36:54+00:00","description":"Gaaf, zo\u2019n flashy machine learning-model. Maar zonder een goede dataset ben je nergens. Slechte input levert zelfs met een ingewikkeld model alsnog slechte output. Data engineers Frances Dreyer en Andre Marques breken daarom in hun Tech Talk een lans voor de cleane dataset. En schoon schip maken met je data kan zo makkelijk of ingewikkeld als je zelf wilt. Frances en Andre lichten in deze blog vast een tipje van de sluier.","breadcrumb":{"@id":"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/#breadcrumb"},"inLanguage":"nl-NL","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/"]}]},{"@type":"ImageObject","inLanguage":"nl-NL","@id":"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/#primaryimage","url":"https:\/\/www.capgemini.com\/nl-nl\/wp-content\/uploads\/sites\/19\/2023\/05\/Tech_Talks_Frances-Dreyers_Andre_Marques.png","contentUrl":"https:\/\/www.capgemini.com\/nl-nl\/wp-content\/uploads\/sites\/19\/2023\/05\/Tech_Talks_Frances-Dreyers_Andre_Marques.png","width":400,"height":400},{"@type":"BreadcrumbList","@id":"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/www.capgemini.com\/nl-nl\/"},{"@type":"ListItem","position":2,"name":"Employee Testimonials","item":"https:\/\/www.capgemini.com\/nl-nl\/employee-testimonial\/"},{"@type":"ListItem","position":3,"name":"Back to basics: hoe data cleaning \u00e1l het verschil maakt"}]},{"@type":"WebSite","@id":"https:\/\/www.capgemini.com\/nl-nl\/#website","url":"https:\/\/www.capgemini.com\/nl-nl\/","name":"Capgemini Nederland","description":"Capgemini","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.capgemini.com\/nl-nl\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"nl-NL"}]}},"parsely":{"version":"1.1.0","canonical_url":"https:\/\/capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/","smart_links":{"inbound":0,"outbound":0},"traffic_boost_suggestions_count":0,"meta":{"@context":"https:\/\/schema.org","@type":"NewsArticle","headline":"Back to basics: hoe data cleaning \u00e1l het verschil maakt","url":"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/","mainEntityOfPage":{"@type":"WebPage","@id":"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/"},"thumbnailUrl":"https:\/\/www.capgemini.com\/nl-nl\/wp-content\/uploads\/sites\/19\/2023\/05\/Tech_Talks_Frances-Dreyers_Andre_Marques.png?w=150&h=150&crop=1","image":{"@type":"ImageObject","url":"https:\/\/www.capgemini.com\/nl-nl\/wp-content\/uploads\/sites\/19\/2023\/05\/Tech_Talks_Frances-Dreyers_Andre_Marques.png"},"articleSection":"Uncategorized","author":[],"creator":[],"publisher":{"@type":"Organization","name":"Capgemini Nederland","logo":""},"keywords":[],"dateCreated":"2024-01-29T08:51:33Z","datePublished":"2024-01-29T08:51:33Z","dateModified":"2025-03-20T10:36:54Z"},"rendered":"<meta name=\"parsely-title\" content=\"Back to basics: hoe data cleaning \u00e1l het verschil maakt\" \/>\n<meta name=\"parsely-link\" content=\"https:\/\/www.capgemini.com\/nl-nl\/carriere\/collegas-vertellen\/back-to-basics-hoe-data-cleaning-al-het-verschil-maakt\/\" \/>\n<meta name=\"parsely-type\" content=\"post\" \/>\n<meta name=\"parsely-image-url\" content=\"https:\/\/www.capgemini.com\/nl-nl\/wp-content\/uploads\/sites\/19\/2023\/05\/Tech_Talks_Frances-Dreyers_Andre_Marques.png?w=150&amp;h=150&amp;crop=1\" \/>\n<meta name=\"parsely-pub-date\" content=\"2024-01-29T08:51:33Z\" \/>\n<meta name=\"parsely-section\" content=\"Uncategorized\" \/>","tracker_url":"https:\/\/cdn.parsely.com\/keys\/capgemini.com\/p.js"},"archive_status":false,"featured_image_src":"https:\/\/www.capgemini.com\/nl-nl\/wp-content\/uploads\/sites\/19\/2023\/05\/Tech_Talks_Frances-Dreyers_Andre_Marques.png","featured_image_alt":"","employee_position":"Frances Dreyer &amp; Andre Marques","jetpack_sharing_enabled":true,"distributor_meta":false,"distributor_terms":false,"distributor_media":false,"distributor_original_site_name":"Capgemini Nederland","distributor_original_site_url":"https:\/\/www.capgemini.com\/nl-nl","push-errors":false,"_links":{"self":[{"href":"https:\/\/www.capgemini.com\/nl-nl\/wp-json\/wp\/v2\/employee-testimonial\/709228","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.capgemini.com\/nl-nl\/wp-json\/wp\/v2\/employee-testimonial"}],"about":[{"href":"https:\/\/www.capgemini.com\/nl-nl\/wp-json\/wp\/v2\/types\/employee-testimonial"}],"author":[{"embeddable":true,"href":"https:\/\/www.capgemini.com\/nl-nl\/wp-json\/wp\/v2\/users\/503"}],"version-history":[{"count":6,"href":"https:\/\/www.capgemini.com\/nl-nl\/wp-json\/wp\/v2\/employee-testimonial\/709228\/revisions"}],"predecessor-version":[{"id":740081,"href":"https:\/\/www.capgemini.com\/nl-nl\/wp-json\/wp\/v2\/employee-testimonial\/709228\/revisions\/740081"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.capgemini.com\/nl-nl\/wp-json\/wp\/v2\/media\/713126"}],"wp:attachment":[{"href":"https:\/\/www.capgemini.com\/nl-nl\/wp-json\/wp\/v2\/media?parent=709228"}],"wp:term":[{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.capgemini.com\/nl-nl\/wp-json\/wp\/v2\/tags?post=709228"},{"taxonomy":"brand","embeddable":true,"href":"https:\/\/www.capgemini.com\/nl-nl\/wp-json\/wp\/v2\/brand?post=709228"},{"taxonomy":"country","embeddable":true,"href":"https:\/\/www.capgemini.com\/nl-nl\/wp-json\/wp\/v2\/country?post=709228"},{"taxonomy":"grade","embeddable":true,"href":"https:\/\/www.capgemini.com\/nl-nl\/wp-json\/wp\/v2\/grade?post=709228"},{"taxonomy":"job_family","embeddable":true,"href":"https:\/\/www.capgemini.com\/nl-nl\/wp-json\/wp\/v2\/job_family?post=709228"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}