En los últimos años, la gestión de datos en el Sector Público ha dejado de ser una tarea operativa para convertirse en un pilar estratégico. Lanbide, el Servicio Vasco de Empleo, es un claro ejemplo de cómo una organización puede evolucionar desde el control de calidad de los datos hasta la construcción de un ecosistema de información compartido, fiable y gobernado. Este artículo recorre algunos puntos fundamentales de más de una década de trabajo conjunto entre Lanbide y Capgemini, en la que cada reto ha representado una oportunidad para mejorar, automatizar y anticiparse, sentando así las bases de un verdadero modelo de calidad del dato.

Antecedentes

El proyecto comenzó en 2011 con un contrato para supervisar la calidad de los datos en Lanbide, basado en tres pilares: las normas del Sistema de Información de los Servicios Públicos de Empleo (SISPE), los criterios internos de Lanbide y la coherencia con los datos del Servicio Público de Empleo Estatal (SEPE). Como resultado de esta supervisión, se detectaron inconsistencias como, por ejemplo, campos de información personal básica vacíos, teléfonos inválidos o la imposibilidad de que una persona residiera en una calle por su inexistencia en el callejero. También se identificó la existencia de versiones diferentes entre los datos de Lanbide y SEPE, lo que derivaba en campos desactualizados:

Imagen: Ejemplo de datos inconsistentes

Para solventar estos problemas, se desarrolló un software de control que aplicaba las normas establecidas y generaba informes periódicos sobre la calidad de los datos, facilitando la corrección de inconsistencias y errores. La información se integró en un esquema de datos comunes, accesible a todo el ecosistema Lanbide, de modo que tanto el personal interno como los proveedores pudieran consultar y corregir directamente desde la base.

Imagen: Esquema de datos comunes

Gestión de la RGI: normalización y calidad

El siguiente hito fue la integración de la Renta de Garantía de Ingresos (RGI), que supuso un gran reto tanto organizativo como técnico. Desde el punto de vista de la gestión, Lanbide debía asumir con rapidez la gestión de información clave para muchas personas. A nivel técnico, se recibió información procedente de múltiples ayuntamientos, con sus distintas bases de datos y formatos heterogéneos. Al analizar esta información, se identificaron diferentes casuísticas con diferentes niveles de dificultad para su resolución.

En la siguiente tabla se observa un ejemplo en el que, aunque los datos apuntan a que se trata de una misma persona, la coincidencia resulta más clara en campos como “APELLIDO 1”, “APELLIDO 2”, “FECHA NACIMIENTO” y “TIPO DOCUMENTO” que en el resto de la información.

Imagen: Ejemplo de datos inconsistentes

El primer paso para resolver estas situaciones fue abordar duplicidades mediante un diccionario basado en grados de similitud y reglas estadísticas. A medida que se solucionaban las anomalías, se implementó un proceso automatizado para acelerar el trabajo de comparación y búsqueda de nuevos registros similares, la separación de campos y la detección de falsos positivos, entre otras tareas. También se mejoró la calidad de las direcciones mediante la aplicación de codificación basada en el callejero NORA, descomponiendo las direcciones en elementos normalizados (tipo de vía, portal, piso) y asignando códigos fiables. Esto permitió análisis geográficos precisos y una mejora significativa en la fiabilidad de la información.

A continuación, se muestra un ejemplo de dirección que requirió la separación por registro para poder realizar la búsqueda en el callejero y aplicar el algoritmo de codificación.

Imagen: Funcionamiento módulo tratamiento de direcciones

Con las calles codificadas se pueden realizar no solo búsquedas mucho más fiables y rápidas, sino también hacer estudios a nivel de calle o portal agrupando por códigos.

Agrupación de registros y reutilización del conocimiento

Con el objetivo de seguir profundizando en el sistema de calidad, se estableció un proceso para agrupar registros de una misma persona en diferentes áreas mediante una clave única de agrupación. Esto permite evitar duplicidades futuras y facilita búsquedas avanzadas para detectar posibles coincidencias.

Imagen: ejemplo de agrupación de registros

Por ejemplo, en la imagen se observa que en el AREA1 de cliente existen dos registros duplicados de la misma persona, quien además cuenta con registros en AREA2 y AREA3. Gracias a esta información, es posible agrupar bajo una sola clave (“777”) todos los registros correspondientes de esa misma persona, sin perder la referencia a la clave original de cada registro en su base de datos en origen. Este sistema avanzado de búsqueda e información enriquecida aporta importantes ventajas para la explotación de datos.

Por otro lado, aprovechando el software y el conocimiento adquirido, se llevó a cabo la depuración de direcciones para automatizar su limpieza y codificación en la entrada de datos, tanto internos como externos a Lanbide. Todo este conocimiento quedó accesible desde la base de datos común para cualquier proveedor o sistema.

Golden Record y sistema BI

Lanbide cuenta con un sistema de inteligencia de negocio (BI) que requiere consolidar datos de algunas variables procedentes de distintas áreas en un único registro por persona o empresa. Esto implica tratar con duplicidades, incoherencias y variaciones en la calidad de los datos según su origen. Para resolverlo, se desarrolló un proceso de unificación que genera lo que se conoce como un ‘Golden Record, es decir, un único registro que contiene la mejor información posible de cada persona o entidad, a partir de la agrupación de múltiples fuentes.

Cada columna del Golden Record se construye a partir de criterios definidos por Lanbide. Por ejemplo, los datos de identidad como nombre, apellidos, fecha de nacimiento y número de documento se extraen del área más fiable (contrastada con los datos de la Policía); el municipio o la nacionalidad se seleccionan con una lógica de prioridades por fiabilidad; y el nivel de estudios se selecciona en función del grado más alto registrado. Así, se garantiza que cada entidad común (persona o entidad) tenga un único identificador persistente y consistente en el tiempo.

A continuación un ejemplo de un registro con el código de agrupación “777” y cómo, a partir de una serie de criterios de selección de la información de Lanbide se obtiene      como resultado un único registro, el Golden Record:

Esta lógica también es aplicable a otras entidades maestras y ha permitido mejorar de forma sustancial la calidad de los datos utilizados en informes, cuadros de mando y análisis transversales. Además, permite que nuevas fuentes de información, incluso externas, puedan integrarse más fácilmente al seguir el mismo patrón de agrupación y validación.

Integración y estándares de Gobierno del Dato

Los procesos de calidad tienen la ventaja de lograr que los datos maestros, distribuidos en varias áreas, converjan progresivamente entre sí como resultado de las correcciones continuas aplicadas tras la detección de errores de calidad en los procesos. Esto facilita que el sistema esté preparado para integrar los datos maestros en un único punto o, al menos, que desde las aplicaciones no se perciba una sensación de “desintegración”     .

Por ejemplo, en el caso de que Landibe reciba  un volumen considerable de datos externos      que puedan enriquecer la información existente, se pueden utilizar todos los procesos y funciones de depuración de información como las ya mencionadas de codificación de direcciones o de traducción de nombres propios) para posteriormente realizar los emparejamientos correspondientes con los datos internos y, si procede, llevar a cabo la integración de esa información.

Actualmente Lanbide se encuentra inmerso en el desarrollo e implantación del Gobierno del Dato, y se está trabajando en la integración de todos estos avances dentro del marco DAMA, incluyendo la incorporación de cuadros de mando de calidad y procesos estándar que permitan el reaprovechamiento y la compartición de conocimiento con otros sistemas.

Imagen: Menú principal Oficina del Dato en Lanbide

La experiencia de Lanbide demuestra que invertir en calidad y gobernanza de los datos no solo mejora la eficiencia operativa, sino que genera valor tangible y transversal para todos los niveles de la organización. Gestionar y estructurar adecuadamente la información de un ecosistema tan dinámico requiere una base de procesos sólida, capaz de      adaptarse de forma continua a los nuevos retos y cambios     .

Actualmente, con una arquitectura modular, procesos compartidos y una clara orientación al uso abierto de los datos, así como la adopción de estándares como DAMA, Lanbide está preparada para afrontar los retos del futuro: desde la integración con nuevas fuentes externas hasta la incorporación de inteligencia artificial para detectar anomalías o enriquecer la información. Y es que, cuando los datos se gestionan y organizan correctamente, dejan de ser un problema para convertirse en un activo estratégico para la organización.

Artículo escrito junto con Nerea Sevilla Marchena, Data Management, Data Governance, Data Analytics & IA en Lanbide. Certificada en CDMP.