Ga direct naar inhoud

Wat is het DNA van het lekkerste tomatenras?

Berend Nannes
30 Nov 2022

Hoe genetische informatie wordt gebruikt in zaadtechnologie

In de reeks Data Stories zetten we verschillende Data Scientists van Capgemini Insights & Data in de spotlight om te vertellen over de toffe dataprojecten waar zij aan werken. In deze editie geven we je een kijkje in de werkzaamheden van Berend Nannes.

Berend Nannes

Ik ben Berend Nannes. Ik heb een studieachtergrond in Natuurkunde (bachelor) en Computational Science (master). Ik ben vooral geïnteresseerd in het vertalen van complexe systemen naar begrijpbare modellen. Ik werk nu Capgemini als Data Scientist en ben nu al ruim een jaar ingezet in het Data Science team van een Nederlandse zaadveredelaar, waar ik aan verschillende projecten heb gewerkt.

Kun je wat meer vertellen over het project waar je nu aan werkt?

“In ons huidige project zijn we bezig om met behulp van genetische data voorspellingen te doen over de eindproducten van kruisingen tussen verschillende rassen. Bij mijn huidige klant wordt het DNA-profiel van zaden met dusdanige precisie bepaald dat je de genetica van een kruising kan simuleren met een computermodel. Het resultaat van een kruising kan op die manier worden gereduceerd tot een statistisch probleem.”

Kun je uitleggen hoe die analyse werkt?

“Jazeker, met behulp van PCR-analyse wordt het genetische materiaal van een ras gedetailleerd in kaart gebracht. Dit gebeurt op basis van een set genetische markers of – simpel gezegd – herkenbare DNA-sequenties op het chromosoom. Een ras kan voor elke marker een verschillende variant van zo’n DNA-sequentie bevatten. Die variaties worden allelen genoemd. Bij het ‘simuleren’ van een kruising tussen twee rassen wil je bepalen wat de frequentie is waarmee bepaalde allelen voorkomen. Als je die informatie van beide ouders hebt kun je namelijk ook de waarschijnlijkheid berekenen dat het nageslacht een bepaalde samenstelling van allelen heeft.”

Klinkt interessant, maar wat kunnen jullie uiteindelijk met deze inzichten?

“In eerste instantie wordt deze methode gebruikt voor validatie. Bij het kruisen komt veel ‘mensenwerk’ kijken en is dus gevoelig voor menselijke fouten. Bestuiving wordt met de hand gedaan en wordt door het personeel gedocumenteerd. Als verschillende rassen bij elkaar in één kas staan, kan er nogal wat misgaan. Een nieuwe kruising die wordt verkocht aan een klant, die eigenlijk een andere kruising blijkt te zijn met andere eigenschappen, kan enorme gevolgen hebben voor de klant en dus ook voor de zaadveredelaar. Het rekenmodel kan hierbij gebruikt worden om de voorspelde uitkomst van een kruising te vergelijken met de daadwerkelijke uitkomst om de kans te bepalen dat er een fout gemaakt is.”

Wat spreekt je aan bij dit project?

 “Ik vind het fascinerend dat we een biologisch proces als voortplanting op deze vereenvoudigde manier kunnen simuleren, en dat het toch zo goed werkt. Het is gaaf om te zien dat zaadveredeling steeds geavanceerder wordt door de toenemende hoeveelheid data die verzameld wordt. Ik verwacht dan ook dat er in dit vakgebied steeds vaker rollen weggelegd zullen zijn voor Data Scientists of vergelijkbare functies ”