Para el último Global Data Science Challenge, colegas de Capgemini de todo el mundo afrontaron la misión de ayudar a identificar los datos anómalos registrados por el equipo de detección submarina del Observatorio Oceánico Lofoten-Vesterålen (LoVe) en Noruega. En este artículo, los equipos ganadores explican cómo respondieron a este desafío.

En las profundidades del océano, frente a la costa del archipiélago noruego de Lofoten, un conjunto de sensores científicos escucha y registra. Durante las 24 horas del día, los siete días de la semana, el Observatorio Oceánico Lofoten-Vesterålen (LoVe) produce un flujo de lecturas químicas, físicas y biológicas.
Escondidos dentro de estos datos están los cantos de las ballenas jorobadas, las vibraciones de grandes bancos de arenques migratorios y numerosas pistas sobre un cambio climático global. Solo hay una dificultad: cómo identificar eventos científicamente importantes en este océano de datos.
Desafío global
Este fue el desafío lanzado a los colegas de Capgemini en todo el mundo a través del último Global Data Science Challenge (GDSC). En este concurso interno anual cientos de empleados compiten para resolver desafíos del mundo real utilizando inteligencia artificial.
En 2020, los participantes aprovecharon la inteligencia artificial y el aprendizaje automático para identificar cachalotes, con el fin de monitorizar sus patrones de migración y proteger sus hábitats naturales.
Este año, de los 673 equipos (1.200 colegas de Capgemini) que participaron en la competición, dos salieron victoriosos para compartir el primer premio: uno con base en India y el otro en Reino Unido.
Un océano de datos
Anupam Saha, manager senior de Capgemini India, líder del equipo indio, explica el desafío. “Se nos pidió que diseñáramos una solución de inteligencia artificial que pudiera analizar la gran cantidad de datos recopilados por los sensores del observatorio LoVe y detectar las anomalías que dirigirán el estudio adicional”, dice.
David Gilhooley, consultor principal y manager de Capgemini UK, quien dirigió el otro equipo ganador, añade que el gran volumen de datos presentó un desafío técnico en sí mismo: “esta es la base del problema: el observatorio está recogiendo una gran cantidad de datos que muestran el océano es ‘normal’, mientras que son las anomalías las que son interesantes”.
Enfoques ganadores
El equipo de Anupam abordó el problema dividiendo los datos en partes. “Abordamos cada fuente de datos individualmente, diseñando un modelo que identificaría los valores atípicos en cada conjunto. Por lo tanto, gran parte de nuestro enfoque estaba en el preprocesamiento de datos, para determinar las variables más relevantes entre las miles que se nos presentaron”.
El equipo del Reino Unido también dio prioridad a la gestión cuidadosa de los datos. “Tuvimos que tomar estas múltiples fuentes de datos y organizarlas día a día”, explica David. “Además de rellenar las áreas faltantes, tuvimos que normalizar los datos para implementar correctamente el análisis de aprendizaje automático”.

Aprendiendo Nuevas Habilidades
El equipo de David había abordado en el procesamiento de datos y el aprendizaje automático en entornos académicos a pequeña escala, por lo que vieron la competencia como una oportunidad para mejorar sus habilidades en un escenario del mundo real.
“Este es el tipo de problema que se presentaría en un entorno industrial: buscar valores atípicos en un enorme conjunto de datos con muchas variables”, dice. “Desde esa perspectiva, el desafío fue realmente práctico. Estábamos emocionados de aprender las herramientas de aprendizaje automático de AWS [Amazon Web Services] y adquirir experiencia con esta tecnología fue extremadamente útil”.
Haciendo que el Equipo funcione

El equipo de David se componía de otros miembros: Vincent Malmedy, Gabriela Pomery y Andrew Pennington, quienes tienen su base en la oficina de Capgemini en Bristol. “La competencia fue la manera perfecta de volver a unir al equipo después de la pandemia”, dice David.
Para Anupam, su momento de mayor orgullo fue la presentación de su equipo a los jueces. “Antes de esto, estábamos en el quinto lugar”, explica. “Pero nos habíamos dado cuenta de que la persona que usa nuestro modelo en el observatorio podría no tener experiencia en datos. Por lo tanto, evitamos ser demasiado teóricos con nuestra presentación, y creo que esto nos ayudó a ganar”.
IA ambiental
Si bien estas tecnologías no deben considerarse una “solución milagrosa”, David cree que la inteligencia artificial y el aprendizaje automático son adecuados para ayudarnos a comprender el cambio climático y el calentamiento global. “Es difícil para los seres humanos comprender todos los datos involucrados en estos enormes procesos. Sin embargo, si se dan las instrucciones correctas, las herramientas de aprendizaje automático pueden ayudar a comprenderlo”.
Él cree que la competencia, junto con los compromisos climáticos más amplios de Capgemini, ha hecho que su equipo sea más consciente de las decisiones que toman, por ejemplo, en términos de cómo se desplazan al trabajo y cuánto plástico usan.

Ambos equipos recibieron un premio de tecnología por sus trabajos ganadores, en lugar de un viaje a Noruega para visitar el observatorio, que, lamentablemente, tuvo que ser cancelado debido a la pandemia. Sin embargo, el equipo de Capgemini en Alemania continúa su trabajo con el observatorio LoVe para integrar las soluciones ganadoras en su plataforma, permitiendo que una gran comunidad de investigadores se beneficie de una comprensión más amplia de los ecosistemas oceánicos.
El próximo año, la GDSC se centrará en encontrar una cura para la oncocercosis (enfermedad parasitaria causada transmitida a los humanos por las moscas negras, que puede causar graves afectaciones de la piel y los ojos que puede llevar incluso a cegueran) lo que será otra oportunidad para dar forma a un futuro mejor utilizando inteligencia artificial y aprendizaje automático.