OpenAI revela el verdadero motivo por el que ChatGPT se inventa cosas: «Establecen los incentivos equivocados»

Escrito por

en

​​

La compañía de Sam Altman ha lanzado un nuevo y detallado informe centrado en las alucinaciones de la inteligencia artificial, tratando de dar explicación y sentido a los motivos de que se sucedan con tanta frecuencia en chatbots tan avanzados como ChatGPT.

Para aquellos que anden algo perdidos, las alucinaciones de la IA son errores en la percepción de las máquinas que hacen que interpreten datos o señales de manera incorrecta, creyendo que están experimentando algo que en realidad no está presente

Un ejemplo sencillo sería una inteligencia artificial entrenada para identificar objetos en imágenes. Si esta IA comienza a detectar objetos que no están allí, como ver un elefante en una imagen de una playa donde no hay elefantes, estaría experimentando una alucinación de la IA.

En el propio informe también ponen ejemplos. A un chatbot le preguntaron por el título de la tesis doctoral de Adam Tauman Kalai, autor del propio estudio. El resultado fueron tres respuestas distintas y todas equivocadas. Después le pidieron su cumpleaños y de nuevo obtuvieron tres fechas diferentes, ninguna correcta.

 

Estas alucinaciones pueden ocurrir debido a varios motivos, como problemas en los datos de entrenamiento, errores en los algoritmos o limitaciones en los sensores de la máquina, y pueden tomar muchas formas diferentes, desde la creación de noticias falsas hasta afirmaciones o documentos falsos sobre personas, eventos o hechos científicos. 

La empresa de Altman lo ha dejado claro: «Los modelos de lenguaje producen declaraciones plausibles pero falsas». Y a pesar de las mejoras, admiten que las alucinaciones «seguirán siendo un desafío fundamental».

¿Cómo puede un sistema de IA fallar así y sonar tan seguro al mismo tiempo? 

Según los investigadores, una de las causas está en el entrenamiento. El modelo se entrena para predecir la siguiente palabra en millones de frases, sin ponerse a evaluar entre hechos correctos o incorrectos. «El modelo solo ve ejemplos positivos de lenguaje fluido y debe aproximar la distribución general», explican.

Esto hace que en campos sistemáticos y predecibles, como la gramática, los errores se reduzcan con la escala. «La ortografía o el uso de paréntesis siguen patrones consistentes. Ahí los errores desaparecen», dicen. 

Pero cuando entran en juego datos aislados, poco frecuentes y sin patrones —como el cumpleaños de una persona concreta—, la IA tiende a inventar. «Los hechos arbitrarios de baja frecuencia no pueden deducirse de patrones y, por tanto, generan alucinaciones», comentan.

Los incentivos están mal diseñados

Más allá del entrenamiento, OpenAI también pone el foco en cómo se evalúan estos modelos. El problema, dicen, no es solo lo que se les enseña, sino cómo los exámenes que pasan premian los comportamientos equivocados. «Las evaluaciones establecen incentivos erróneos», se asegura el estudio.

Para que te hagas una idea, los investigadores comparan estas pruebas con exámenes de opción múltiple. Si un estudiante duda entre varias respuestas, quizás le convenga elegir al azar, porque puede acertar por suerte. 

En cambio, dejar la casilla en blanco supone una nota segura de cero. «De la misma forma, cuando los modelos son evaluados solo por exactitud, se les anima a adivinar en lugar de decir ‘no lo sé’», apuntan.

El problema es que los sistemas aprenden del modo en que son medidos. Y si lo que puntúa es acertar algunas por suerte antes que mostrar incertidumbre, ahí es donde se refuerza el sesgo. «Mientras las tablas de clasificación sigan premiando a los que adivinan, los modelos seguirán aprendiendo a adivinar», comentan.

Con esto como base, ponen sobre la mesa la posibilidad de cambiar las reglas de juego. Así como en algunos exámenes se penalizan los errores o se da medio punto por dejar una pregunta en blanco, OpenAI propone aplicar algo así en inteligencia artificial.

«Las evaluaciones deberían penalizar los errores seguros con más dureza que la incertidumbre, y dar crédito parcial a expresiones adecuadas de duda», escriben. En otras palabras, si el sistema no está seguro, mejor que lo diga claramente a que ofrezca un dato falso con toda la seguridad.

Para OpenAI, es necesario que los benchmarks más usados —los que marcan el progreso de la industria— cambien su sistema de puntuación. «Si solo modificamos pruebas secundarias, el peso de las evaluaciones principales seguirá incentivando el error», explican.

 

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *