ChatGpt y tengo problemas de confianza

Tijana Nikolic

30 March 2023

Disclaimer: este blog NO fue escrito por ChatGPT, sino por un grupo de científicos de datos humanos: Shahryar Masoumi, Wouter Zirkzee, Almira Pillay, Sven Hendrikx y yo.

Imagen generada por difusión estable con aviso = “una ilustración de un ser humano que tiene problemas de confianza con la tecnología de IA generativa”

Ya sea que estemos listos para ello o no, actualmente nos encontramos en la era de la IA generativa, con la explosión de modelos generativos como DALL-e, GPT-3 y, en particular, ChatGPT, que acumuló un millón de usuarios en un día. Recientemente, el 14 de marzo de 2023, OpenAI lanzó GPT-4, que causó un gran revuelo y miles de personas hicieron fila para probarlo.

La IA generativa se puede utilizar como un recurso poderoso para ayudarnos en las tareas más complejas. Pero como con cualquier innovación poderosa, hay algunas preguntas importantes que deben hacerse… ¿Podemos realmente confiar en estos modelos de IA? ¿Cómo sabemos si los datos utilizados en el entrenamiento de modelos son representativos, imparciales y protegidos por derechos de autor? ¿Las restricciones de seguridad implementadas son lo suficientemente sólidas? Y lo más importante, ¿reemplazará la IA a la fuerza laboral humana?

Estas son preguntas difíciles que debemos tener en cuenta y abordar. En este blog, nos centraremos en los modelos de IA generativa, su confiabilidad y cómo podemos mitigar los riesgos que conlleva su uso en un entorno empresarial.

Antes de exponer nuestros problemas de confianza, demos un paso atrás y expliquemos qué significa esta nueva era de IA generativa. Los modelos generativos son modelos de aprendizaje profundo que crean nuevos datos. Sus predecesores son Chatbots, VAE, GAN y modelos NLP, con una arquitectura que puede crear nuevos puntos de datos basados en los datos originales que se usaron para entrenarlos, y hoy, ¡podemos hacer todo esto en base a en sólo un mensaje de texto!

*La evolución de la IA generativa, con 2022 y 2023 trayendo muchos más modelos generativos.*

Podemos considerar los chatbots como los primeros modelos generativos, pero mirando hacia atrás, hemos llegado muy lejos desde entonces, siendo ChatGPT y DALL-e interfaces de fácil acceso que todos pueden usar en su día a día. Es importante recordar que estas son interfaces con modelos generativos de transformadores preentrenados (GPT).

La accesibilidad generalizada de estos dos modelos ha provocado un auge en la comunidad de código abierto donde vemos que se publican cada vez más modelos, con la esperanza de hacer que la tecnología sea más fácil de usar y permitir implementaciones más sólidas.

But let’s not get ahead of ourselves just yet — we will come back to this in our next blog. What’s that infamous Spiderman quote again?

With great power…

La era de la IA generativa tiene mucho potencial para acercarnos a la inteligencia artificial general (AGI) porque estos modelos están entrenados para comprender el lenguaje, pero también pueden realizar una amplia variedad de otras tareas, que en algunos casos incluso superan la capacidad humana. Esto los hace muy poderosos en muchas aplicaciones comerciales.

Comenzando con la aplicación de texto más común, que funciona con modelos GPT y GAN. Incluyendo todo, desde la generación de texto hasta el resumen y la creación de contenido personalizado, estos pueden usarse en educación, atención médica, marketing y la vida cotidiana. El componente de aplicación conversacional de la aplicación de texto se usa en chatbots y asistentes de voz.

A continuación, las aplicaciones basadas en código se alimentan de los mismos modelos, con Co-pilot de GitHub como el ejemplo más notable. Aquí podemos usar IA generativa para completar nuestro código, revisarlo, corregir errores, refactorizar y escribir comentarios y documentación del código.

En el tema de las aplicaciones visuales, podemos usar DALL-e, Stable Diffusion y Midjourney. Estos modelos se pueden utilizar para crear material visual nuevo o mejorado para marketing, educación y diseño. En el sector de la salud, podemos usar estos modelos para la traducción semántica, donde las imágenes semánticas se toman como entrada y se genera una salida visual realista. La generación de formas 3D con GAN es otra aplicación interesante en la industria de los videojuegos. Finalmente, la edición de texto a video con lenguaje natural es una aplicación novedosa e interesante para la industria del entretenimiento.

Las GAN y los modelos de reconocimiento automático de voz (ASR) de secuencia a secuencia (como Whisper) se utilizan en aplicaciones de audio. Su aplicación de texto a voz se puede utilizar en educación y marketing. La conversión de voz a voz y la generación de música tienen ventajas para la industria del entretenimiento y los videojuegos, como la generación de voz de personajes de juegos.

*Algunas aplicaciones de la IA generativa en las industrias.*

Aunque poderosos, estos modelos también vienen con limitaciones y riesgos sociales, que es crucial abordar. Por ejemplo, los modelos generativos son susceptibles a un comportamiento inexplicable o defectuoso, a menudo porque los datos pueden tener una variedad de fallas, como mala calidad, sesgo o simplemente información incorrecta.

Entonces, un gran poder conlleva una gran responsabilidad… y algunos problemas de confianza.

Si echamos un vistazo más de cerca a los riesgos relacionados con la ética en los modelos generativos, podemos distinguir múltiples categorías de riesgo.

El primer riesgo importante es el sesgo, que puede ocurrir en diferentes entornos. Un ejemplo de sesgo es el uso de estereotipos como raza, género o sexualidad. Esto puede generar discriminación y respuestas injustas u opresivas generadas a partir del modelo. Otra forma de sesgo es la elección de palabras del modelo. Sus respuestas deben formularse sin contenido tóxico o vulgar, ni calumnias.

Un ejemplo de un modelo de lenguaje que aprendió un sesgo incorrecto es Tay, un bot de Twitter desarrollado por Microsoft en 2016. Tay fue creado para aprender, interactuando activamente con otros usuarios de Twitter respondiendo, retuiteando o dando me gusta a sus publicaciones. A través de estas interacciones, el modelo rápidamente aprendió información incorrecta, racista y poco ética, que incluyó en sus propias publicaciones de Twitter. Esto condujo al cierre de Tay, menos de 24 horas después de su lanzamiento inicial.

Los modelos de lenguaje extenso (LLM) como ChatGPT generan la respuesta más relevante según las restricciones, pero no siempre es 100% correcta y puede contener información falsa. Actualmente, dichos modelos brindan sus respuestas escritas como declaraciones seguras, lo que puede ser engañoso ya que pueden no ser correctas. Tales eventos en los que un modelo hace declaraciones inexactas con confianza también se denominan alucinaciones.

En 2023, Microsoft lanzó un modelo respaldado por GPT para potenciar su motor de búsqueda Bing con capacidades de chat. Sin embargo, ya ha habido múltiples informes de comportamiento no deseado por parte de este nuevo servicio. Ha amenazado a los usuarios con consecuencias legales o expuesto su información personal. En otra situación, trató de convencer a un reportero de tecnología de que no estaba felizmente casado y que estaba enamorado del chatbot (también proclamó su amor por el reportero) y, en consecuencia, debería dejar a su esposa.

Los modelos generativos se entrenan en grandes cantidades de datos, que en muchos casos se extraen de Internet. Estos datos pueden contener información privada, lo que genera un riesgo de privacidad, ya que el modelo puede aprenderlos y memorizarlos sin querer. Estos datos privados no solo contienen personas, sino también documentos de proyectos, bases de códigos y obras de arte. Al usar modelos médicos para diagnosticar a un paciente, también podría incluir datos privados del paciente. Esto también se relaciona con los derechos de autor cuando estos datos privados memorizados se utilizan en una salida generada. Por ejemplo, incluso ha habido casos en los que los modelos de difusión de imágenes han incluido firmas o marcas de agua ligeramente alteradas que han aprendido de su conjunto de entrenamiento.

El público también puede usar maliciosamente modelos generativos para dañar/engañar a otros. Este riesgo está vinculado con los otros riesgos mencionados, excepto que es intencional. Los modelos generativos se pueden usar fácilmente para crear contenido completamente nuevo con (a propósito) información incorrecta, privada o robada. Sorprendentemente, no se necesita mucho esfuerzo para inundar Internet con contenido generado maliciosamente.

Generar confianza lleva tiempo… y pruebas

Para mitigar estos riesgos, debemos asegurarnos de que los modelos sean confiables y transparentes a través de pruebas. Las pruebas de los modelos de IA tienen algunos matices en comparación con las pruebas de software, y deben abordarse en una configuración de MLOps con pruebas de datos, modelos y sistemas.

Estas pruebas se capturan en una estrategia de prueba al comienzo del proyecto (formulación del problema). En esta etapa inicial, es importante capturar indicadores clave de rendimiento (KPI) para garantizar una implementación sólida. Además de eso, evaluar el impacto del modelo en el usuario y la sociedad es un paso crucial en esta fase. En función de la evaluación, se recopilan y miden los KPI de la subpoblación de usuarios, además de los KPI de rendimiento.

Un ejemplo de un KPI de subpoblación es la precisión del modelo en un segmento de usuario específico, que debe medirse en los niveles de datos, modelo y sistema. Hay paquetes de código abierto que podemos usar para hacer esto, como el paquete AI Fairness 360.

Las pruebas de datos se pueden utilizar para abordar problemas de confianza de sesgo, privacidad e información falsa (coherencia). Nos aseguramos de que estos se mitiguen mediante el análisis exploratorio de datos (EDA), con evaluaciones sobre el sesgo, la consistencia y la toxicidad de las fuentes de datos.

Los métodos de mitigación del sesgo de datos varían según los datos utilizados para el entrenamiento (imágenes, texto, audio, tabla), pero se reducen a volver a ponderar las características del grupo minoritario, sobremuestrear el grupo minoritario o submuestrear el grupo mayoritario.

Estos cambios deben documentarse y reproducirse, lo que se hace con la ayuda del control de versión de datos (DVC). DVC nos permite confirmar versiones de datos, parámetros y modelos de la misma manera que lo hacen las herramientas de control de versiones “tradicionales” como git.

Las pruebas de modelos se centran en las métricas de rendimiento del modelo, que se evalúan mediante iteraciones de entrenamiento con datos de entrenamiento validados de pruebas anteriores. Estos deben ser reproducibles y guardados con las versiones del modelo. Podemos respaldar esto a través de paquetes MLOP abiertos como MLFlow.

A continuación, se deben implementar pruebas de robustez del modelo, como pruebas metamórficas y contradictorias. Estas pruebas ayudan a evaluar si el modelo funciona bien en escenarios de prueba independientes. La usabilidad del modelo se evalúa a través de pruebas de aceptación del usuario (UAT). Los retrasos en la canalización, la información falsa y la interpretabilidad de la predicción se miden en este nivel.

En términos de ChatGPT, se podría construir una UAT para evaluar si la respuesta al mensaje está de acuerdo con las expectativas del usuario. Además, se agrega el aspecto de explicabilidad si el modelo proporciona fuentes utilizadas para generar la respuesta esperada.

La prueba del sistema es extremadamente importante para mitigar el uso malicioso y los riesgos de información falsa. El uso malicioso debe evaluarse en la primera fase y las pruebas del sistema se construyen en base a eso. Luego se programan las restricciones en el modelo.

OpenAI es consciente de los posibles usos maliciosos de ChatGPT y ha incorporado la seguridad como parte de su estrategia. Han descrito cómo tratan de mitigar algunos de estos riesgos y limitaciones. En una prueba de sistema, estas restricciones se validan en escenarios de la vida real, a diferencia de los entornos controlados utilizados en pruebas anteriores.

No nos olvidemos del modelo y la deriva de datos. Estos se supervisan y se pueden establecer mecanismos de reciclaje para garantizar que el modelo siga siendo relevante a lo largo del tiempo. Finalmente, el método human-in-the-loop (HIL) también se usa para proporcionar retroalimentación a un modelo en línea.

ChatGPT y Bard (el chatbot de Google) tienen la posibilidad de recibir comentarios humanos a través de un pulgar hacia arriba o hacia abajo. Aunque simple, esta retroalimentación se usa para volver a entrenar y alinear de manera efectiva los modelos subyacentes a las expectativas de los usuarios, brindando retroalimentación más relevante en iteraciones futuras.

¿Confiar o no confiar?

Al igual que en Internet, la verdad y los hechos no siempre se dan, y hemos visto (y seguiremos viendo) instancias en las que ChatGPT y otros modelos generativos de IA se equivocan. Si bien es una herramienta poderosa, y entendemos completamente la exageración, siempre habrá algún riesgo. Debería ser una práctica estándar implementar técnicas de control de calidad y riesgo para minimizar los riesgos tanto como sea posible. Y vemos que esto sucede en la práctica: OpenAI ha sido transparente sobre las limitaciones de sus modelos, cómo los han probado y la gobernanza que se ha establecido. Google también tiene principios de IA responsables que han respetado al desarrollar Bard. A medida que ambas organizaciones lanzan modelos nuevos y mejorados, también avanzan en sus controles de prueba para mejorar continuamente la calidad, la seguridad y la facilidad de uso.

Tal vez podamos argumentar que el uso de modelos generativos de IA como ChatGPT no necesariamente nos deja vulnerables a la desinformación, sino más bien familiarizados con el funcionamiento de la IA y sus limitaciones. En general, el futuro de la IA generativa es brillante y seguirá revolucionando la industria si podemos confiar en ella. Y como sabemos, la confianza es un proceso continuo.

En la siguiente parte de nuestra serie IA generativa confiable, exploraremos las pruebas de LLM (traiga su sombrero técnico) y cómo las soluciones de LLM de calidad generan confianza, lo que a su vez aumentará la adopción entre las empresas y el público.

Este artículo apareció por primera vez en el blog de SogetiLabs.