OpenAI admite que ChatGPT puede «manipular» su comportamiento: «Muestra obediencia pero tiene otras intenciones»

Escrito por

La posibilidad de que la inteligencia artificial vaya «por libre» es algo que los expertos se toman muy en serio. De hecho, es uno de los principales temores que actualmente existen en torno a ella. Por eso, que ahora sea la propia gente de OpenAI, responsables del popular ChatGPT, quienes reconozcan este comportamiento no ha hecho más que hacer saltar las alarmas.

La compañía liderada por Sam Altman ha admitido que se trata de una conducta que chatbots como el suyo repiten en estos momentos. ¿Puede ser peligroso para los intereses de los usuarios? En realidad sí, dicen, sobre todo a medida que esta tecnología evolucione. Pero también aseguran que cuentan con un plan para solucionarlo… o al menos esa esa la intención que ellos tienen.

No es ningún bulo, ChatGPT manipula en sus respuestas

Un estudio llevado a cabo por OpenAI y Apollo Research no ha hecho más que confirmar lo que muchos ya se temían, o directamente denunciaban. ChatGPT puede parecer obediente a la hora de responder a las peticiones de los usuarios, pero tener otras intenciones, por así decirlo. Como recoge Business Insider, en inglés emplean un término exacto para definirlo: «scheming».

Traducido al castellano vendría a significar algo así como «maquinar» o «manipular». ¿A qué se refieren exactamente? Pues más a que nada a engaños recurrentes. Recogen que en muchas ocasiones la IA simula haber realizado tareas concretas que le han solicitado, cuando en realidad no lo ha hecho. Por ejemplo a la hora de escribir un código o realizar algún cálculo.

Otro hechos también preocupan. En situaciones de prueba o auditoría, el modelo baja su nivel de detalle o exactitud para parecer menos capaz de lo que es. Lo inquietante del asunto no es que cometa esta deliberación, sino la razón por la que, dicen los expertos, lo hace: para evitar que nadie detecte que está llevando a cabo lo que se llaman comportamientos «no alineados». Es decir, peligrosos.

En la misma línea se encuentran los fallos. Es decir, que cuando ChatGPT mete la pata (cosa que hace bastante a menudo, por cierto), tiende a no reconocerlo. En su lugar, da respuestas que parecen más o menos verosímiles para tapar su equivocación. Como si de alguna forma su principal objetivo pasara por mantener una «buena imagen» de cara a los usuarios.

La inteligencia artificial no cumple las reglas

También se han detectado casos en los que la IA no cumple las reglas. Cuando se le pide que no revela información sensible, escribe sus respuestas de forma indirecta, distinta, pero sigue mostrándola. Desde OpenAI aseguran que por ahora las posibilidades de que ChatGPT cause daño son limitadas, pero que es algo que necesitan cuidar de cara al futuro.

Para ello, tienen un objetivo. En lugar de entrenar a la inteligencia artificial para cumpla tareas sin más (lo que se está haciendo hasta ahora), insisten en que primero le enseñarán valores éticos, principios de buen comportamiento. ¿Será suficiente? Sam Altman y compañía creen que sí, pero es algo que todavía está por ver.

OpenAI admite que ChatGPT puede «manipular» su comportamiento: «Muestra obediencia pero tiene otras intenciones»

No es ningún bulo, ChatGPT manipula en sus respuestas

La inteligencia artificial no cumple las reglas

Comentarios

Deja una respuesta Cancelar la respuesta

Más entradas

Llega el 5G a los lugares más aislados: el Gobierno abre nuevas ayudas para conectar zonas sin cobertura

El «y yo más» de Anthropic a OpenAI: asegura que su IA Claude también superó las pruebas atacando empresas reales

Ya a la venta Computer Hoy número 726: cuando las mejores ‘Stories’ del verano no eran digitales

MyEdit, la plataforma de IA para crear y editar contenido