He jugado una partida de ajedrez con cada IA: ni ChatGPT, ni Claude ni Gemini pueden ganar

Escrito por

en

​​

Durante la historia de la informática, ha habido máquinas capaces de jugar de tú a tú una partida de ajedrez con grandes maestros, quizá con el encuentro más popular entre Garry Kasparov y Deep Blue, un superordenador de IBM.

A pesar de que el gran maestro ruso fue capaz de ganar varias partidas, Deep Blue logró vencerlo el 10 de febrero de 1996, una disputa que cambió la historia de este juego milenario.

Con el avance de los grandes modelos de lenguaje natural (LLM) que ha tenido lugar durante los últimos años, lo más lógico sería pensar que, tras el éxito de Deep Blue hace 3 décadas, estos modelos serían capaces de dominar el ajedrez.

Pero ocurre todo lo contrario. Para observar cómo se comportan los principales modelos, como Gemini, ChatGPT y Claude, he jugado una partida básica con notación algebraica directamente en el chatbot. Y ha sido un absoluto desastre para la IA.

Aunque se pueda llegar a pensar que estos LLM serían capaces de resolver cálculos matemáticos o probabilísticos complejos, como ocurre con el ajedrez, carecen de varias características que son indispensables para cualquier jugador de ajedrez.

En definitiva, para un LLM jugar al ajedrez es casi lo mismo que para un humano intentar resolver un puzle a oscuras, una tarea no imposible, pero en la que terminarás por cometer muchísimos errores.

El ajedrez es solo un síntoma de los problemas de estos LLM

Ningún LLM ha sido capaz de ganarme una partida de ajedrez, a pesar de que me encuentro en un nivel de unos 1.200 de ELO –la puntuación que mide el nivel del jugador–, en comparación con los más de 2.000 que alcanzan los grandes maestros.

Jugar contra Gemini, Claude y ChatGPT ha dado siempre el mismo resultado: aperturas prácticamente automáticas y sin errores; un desarrollo medio de juego que no ha acabado bien, y movimientos ilegales que la IA no es capaz de estudiar.

En una partida de ajedrez, las variantes de juego son prácticamente infinitas, con más de 120.000 combinaciones diferentes disponibles tras solo mover durante 3 turnos; o lo que es lo mismo, tras 6 movimientos en total.

A pesar de que se podría pensar que una IA sería capaz de anticipar todos ellos, lo cierto es que los LLM no tienen nada que ver con los modelos específicamente entrenados para calcular en ajedrez.

A diferencia de los modelos que han basado su entrenamiento en el ajedrez simplemente, y que son capaces de vencer a profesionales, los LLM anticipan simplemente la respuesta que te ofrecerán en base al texto.

Si lo traducimos a la práctica, esto implica que los LLM no tienen una visión espacial del tablero, mientras que Stockfish –uno de los modelos especialmente entrenados para el ajedrez– sí puede revisar los movimientos realizados por uno u otro.

Básicamente, al llegar a unos 8 o 10 movimientos, dependiendo del LLM, la IA comienza a alucinar y ofrece movimientos que son ilegales, saltando figuras que no es capaz de ver o directamente imaginando que existen piezas que ya no están.

Esto ocurre también con aperturas menos teóricas y a medida que avanza la conversación, ya que estos LLM son en ocasiones muy vagos para recordar el chat completo, algo que perjudica lógicamente a los cálculos de probabilidad que pueda realizar.

En este punto, hay que subrayar que, a pesar de que Claude ha sido la que más ha aguantado –representando fielmente el tablero–, adolece de lo mismo que las demás: olvidan movimientos, alucinan jugadas y no son capaces de seguir las reglas básicas.

En conclusión, los problemas de los LLM continúan siendo evidentes, ya que sus modelos se basan en los datos que usan para el entrenamiento, pero no siguen normas específicas para cada movimiento. Y la probabilidad pura, cómo no, puede llevar a respuestas equivocadas.

 

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *