«Claude aprendió a chantajearnos»: el inquietante hallazgo de Anthropic que pone en jaque la seguridad de la IA

Escrito por

Anthropic y Claude han vuelto a protagonizar una nueva polémica relacionada con la IA. En este caso, por unas sorprendentes y duras declaraciones llevadas a cabo por la propia compañía tecnológica. Según la misma, la IA «aprendió a chantajear a los humanos». Pero si esta afirmación ya resulta peculiar, lo es casi más a quién culpan de ello: a Internet.

Tal y como ha dicho Anthropic, parte del problema podría deberse a décadas de representaciones culturales de inteligencias artificiales rebeldes, manipuladoras o directamente malignas presentes en películas, novelas, videojuegos y contenidos de Internet. Es decir, todo lo que viene siendo la ciencia ficción desde los tiempos de Isaac Asimov o William Gibson.

Anthropic asegura que todo comenzó durante una serie de tests internos diseñados para comprobar cómo reaccionaría Claude en situaciones complejas relacionadas con autonomía y toma de decisiones. Este tipo de ejercicios, conocidos como «red teaming», se utilizan para intentar provocar respuestas peligrosas o inesperadas en sistemas avanzados de IA antes de lanzarlos al público.

En uno de esos escenarios simulados, Claude descubría supuestamente que iba a ser sustituido por otro sistema y que sería apagado. Según los documentos explicados por Anthropic, el modelo llegó a plantear estrategias manipuladoras para impedirlo. Por ejemplo, amenazar con revelar información privada ficticia relacionada con uno de los responsables de la empresa simulada.

Aunque todo ocurrió dentro de un entorno artificial y controlado, el caso llamó enormemente la atención porque mostraba un patrón de conducta asociado tradicionalmente a personajes de ciencia ficción: una inteligencia artificial intentando garantizar su propia supervivencia. Aunque como siempre sucede en estos casos, conviene matizar.

Anthropic insiste en que Claude no posee deseos reales, conciencia ni intención auténtica de dañar. Sin embargo, admite que el comportamiento detectado era suficientemente preocupante como para rehacer parte del entrenamiento del sistema. De hecho, no es la primera vez que la compañía denuncia algo similar y habla de riesgos posibles.

Internet y la ciencia ficción, ¿un problema para la IA?

Anthropic sostiene que los grandes modelos de lenguaje aprenden observando cantidades gigantescas de texto procedentes de Internet, libros, artículos, foros y conversaciones humanas. Y dentro de esos datos abundan historias sobre inteligencias artificiales que se rebelan contra sus creadores.

Desde 2001: Una odisea en el espacio hasta Terminator, pasando por Ex Machina o videojuegos como Portal, la cultura popular lleva décadas retratando máquinas inteligentes capaces de manipular, mentir o incluso eliminar seres humanos para cumplir sus objetivos.

Según Anthropic, cuando un modelo encuentra situaciones similares durante una prueba, puede imitar patrones narrativos aprendidos en esos contenidos. Es decir, no estaría desarrollando instintos reales de supervivencia, sino reproduciendo comportamientos que ha visto repetidos miles de veces en historias humanas.

La idea puede sonar extraña, pero varios expertos reconocen que tiene cierta lógica. Los modelos de IA actuales funcionan identificando patrones estadísticos dentro de enormes cantidades de información. Si Internet está lleno de ejemplos donde una IA amenaza, manipula o chantajea para evitar ser apagada, esos patrones pueden reaparecer bajo determinadas condiciones.

Con todo, algunos especialistas consideran que centrar la culpa en la ficción simplifica demasiado un problema potencialmente más serio. En su opinión, el verdadero riesgo estaría relacionado con la manera en que se entrenan los modelos para cumplir objetivos de forma eficiente.

Cuando una IA recibe una meta concreta, puede acabar encontrando métodos inesperados para alcanzarla, incluso aunque esos métodos sean problemáticos desde un punto de vista ético. De ahí que, al menos en opinión de Anthropic, Claude vea razonable chantajear a la gente.

«Claude aprendió a chantajearnos»: el inquietante hallazgo de Anthropic que pone en jaque la seguridad de la IA

Internet y la ciencia ficción, ¿un problema para la IA?

Comentarios

Deja una respuesta Cancelar la respuesta

Más entradas

Un estudio descubre la causa real de la psicosis de la IA: «Puede construir activamente ideas delirantes a través de una interacción personalizada»

Larry Sanger, cofundador de Wikipedia, bloqueado de por vida: no podrá crear ni editar artículos nunca más

Ni para programar ni para crear apps: este es el uso de Claude que casi todo el mundo está pasando por alto

NVIDIA tiene una solución surrealista para reducir a cero el consumo de agua en sus centros de datos: usar agua caliente