Classificeren van Diatomeeën om klimaatverandering te begrijpen

Publish date:

Klimaatverandering is het belangrijkste probleem wat er op dit moment speelt en waar we nu iets aan moeten doen. De mogelijke consequenties van klimaatverandering worden overal behandeld: kranten, wetenschappelijke artikelen, het gesprek wat je had bij het bushokje met een willekeurige vreemde.

Klimaatverandering is het belangrijkste probleem wat er op dit moment speelt en waar we nu iets aan moeten doen. De mogelijke consequenties van klimaatverandering worden overal behandeld: kranten, wetenschappelijke artikelen, het gesprek wat je had bij het bushokje met een willekeurige vreemde.

Klimaatwetenschap is echter een lastig onderzoeksgebied waar nog veel onzekerheden zijn. Gelukkig kunnen diatomeeën een uitkomst bieden om historische klimaatontwikkeling te meten.
Hiernaast worden diatomeeën gebruikt om de biologische waterkwaliteit te bepalen. Omdat slechts 1% van het water dat wordt gemeten voldoet aan de gestelde richtlijnen, heeft milieuorganisatie Natuur & Milieu al in 2019 de noodklok geluid over de stand van de Nederlandse waterkwaliteit.

Wat zijn diatomeeën en wat leren ze ons?

Binnen de huidige klimaatwetenschap is er veel onzekerheid over de precieze gevolgen van klimaatverandering en hoe ingrijpend deze zullen zijn. De scenarios lopen uiteen van anderhalve graad opwarming tot bijna vijf graden opwarming. De verwachtingen verschillen veel en zijn afhankelijk van ons gedrag, maar hebben ook een grote onzekerheidsmarge. Deze onzekerheidsmarge wordt mede-veroorzaakt doordat er maar voor een relatief korte periode aan klimaatdata beschikbaar is: sinds het gebruik van moderne meetinstrumenten. Om klimaatmodellen beter te kunnen kaliberen is meer historische klimaatdata nodig. Dit is exact waar diatomeeën een uitkomst kunnen bieden.

Diatomeeën zijn eencellige algen die worden gekenmerkt door een buitenkant van kiezel (siliciumdioxide). Welke diatomee-soorten voorkomen, is sterk afhankelijk van de omstandigheden van hun omgeving. Daarnaast hebben ze de onderscheidende eigenschap dat ze zeer goed fossiliseren. Deze fossielen bevinden zich in aardlagen en kunnen daarmee gekoppeld worden aan een tijdsperiode. Door de samenstelling van de verschillende diatomee-soorten in zo’n aardlaag te bepalen, kan men een uitspraak doen over de omgevingsomstandigheden toen de fossielen vormden.

Tot slot worden er, in ander onderzoek, watermonsters genomen waarin eveneens de samenstelling van de verschillende diatomee-soorten wordt bepaald. Aan de hand van deze metingen wordt de biologische waterkwaliteit gemonitord.

Er zijn echter enige hordes waar je tegenaan loopt wanneer je diatomeeën wil bestuderen. De eerste horde is het bepalen van de soort: er wordt geschat dat er ongeveer 200.000 soorten zijn. Deze soorten delen veel uiterlijke kenmerken, waardoor er maar weinig onderzoekers zijn die verschillende soorten goed kunnen herkennen. Naast het gebrek aan dit soort specialisten, bestaat er geen goede referentie-database waar wetenschappers gebruik van kunnen maken om hun classificaties te verifiëren.

Om hierin te assisteren hebben wij vanuit een Capgemini gewerkt aan een AI oplossing voor het classificeren van diatomeeën op basis van microscoopopnames en dit beschikbaar gemaakt voor wetenschappers op het 890 platform van Capgemini.

Van idee naar uitvoering

Het classificeren van afbeeldingen is een domein wat de afgelopen jaren enorm ontwikkeld is. Een voorbeeld hiervan is de ResNet architectuur waarmee 1000 verschillende soorten klassen in plaatjes herkend konden worden. De opkomst van Deep-learning modellen als ResNet geven de mogelijkheid om het automatisch classificeren van diatomeeën beter te doen in vergelijking met oudere technieken. Het bouwen van zo’n soort model vereist echter veel verschillende afbeeldingen, wat een uitdaging is gezien de beperkte beschikbaarheid van geclassificeerde afbeeldingen van diatomeeën.

Voor het maken van ons model hebben wij een dataset gebruikt van 10.000 verschillende afbeeldingen, verdeeld over 100 verschillende soorten. Voor het ontwikkelen van het model hebben wij uiteindelijk 80 klassen van deze 100 gekozen, in navolging van de wetenschappers die deze dataset hebben samengesteld. Door deze keuze hebben wij een referentiekader waarmee wij ons model kunnen vergelijken.

Bij het trainen van ons model maken we gebruik van transfer-learning. Als basis gebruiken wij een MobileNet V2 in Keras Tensorflow waarbij we de laatste lagen hebben vervangen door twee lagen van 2048 en 1024 neuronen. Deze laatste lagen trainen wij om het soort van de diatomee te herkennen. Om de prestaties te verbeteren maken we ook gebruik van artificiële vervormingen (rotaties, uitrekken, etc.) van de beschikbare plaatjes die willekeurig worden toegepast om zo het model robuuster te maken voor variaties in de praktijk.

Daarnaast hebben we ook modelverklaringen ingebouwd middels LIME. Hierdoor krijgt de gebruiker inzicht in welke delen van een plaatje positief/negatief bijdragen aan een bepaalde voorspelling (zie de groene en rode vlakken in figuur 1).

Figuur 1: Een screenshot van de webapplicatie. V.l.n.r.: Het ge-uploade plaatje, de meest betrouwbare voorspelling, de tweede meest betrouwbare voorspelling en de acties.

Dit alles is geïntegreerd in een webapplicatie op het wereldwijde Capgemini platform 890. In deze applicatie kunnen gebruikers hun eigen plaatjes uploaden, classificeren en met een correct label opslaan in de database. Daarnaast kunnen gebruikers in deze database zoeken naar diatomeeën op basis van naam en attributen.

Toekomst van het project

Met het model en de webapplicatie die we hebben opgezet is er een goede eerste stap gezet om wetenschappers te helpen met het sneller en beter classificeren van diatomeeën. Daarnaast is er ook een centrale database waardoor wetenschappers makkelijker toegang hebben tot afbeeldingen van nieuwe soorten. Vanuit onze visie op duurzaamheid en maatschappelijk verantwoord ondernemen heeft Capgemini de intentie om dit project verder te ontwikkelen om nog meer waarde voor de wetenschap te creeëren. Denk hierbij aan het betrekken van meer wetenschappers om het platform te gebruiken, maar ook verbeteringen aan het model om meer soorten te herkennen en het automatisch hertrainen van het model (MLOps).

Naast de ideeën die al bestaan zijn nieuwe creatieve ingevingen altijd welkom! Wil jij op die manier ook je steentje bijdragen aan dit mooie project? Neem dan contact met ons op om even te sparren!

Auteurs


Jorrit Bootsma
Team Lead

Mike de Haan
Computer Vision Expert

Gerelateerde posts

Agile Scan in a Day

Date icon 25 november 2021

Praktische verbeteringen op een presenteerblaadje binnen één dag

Wat is duurzame software?

Date icon 19 november 2021

Als we software ook als een product zien, net als een pakje roomboter, spijkerbroek,...

Van Agile startarchitectuur naar Solution Intent

Date icon 19 november 2021

In ons vorige blog hebben we de toegevoegde waarde van een Agile Startarchitectuur (ASA)...