Atari Video Chess da jaque mate a Copilot tras derribar al rey de ChatGPT
¿Quizás serían mejores en las damas?
- Microsoft Copilot ha perdido una partida de ajedrez contra un Atari 2600.
- La derrota sigue a la similar de ChatGPT en Video Chess de Atari.
- Las IAs perdieron repetidamente la pista del estado del tablero, demostrando una debilidad clave en los LLM.
Los desarrolladores de chatbots de inteligencia artificial suelen alardear de la lógica y la capacidad de razonamiento de sus modelos, pero eso no significa que los LLM que están detrás de los chatbots sean buenos jugando al ajedrez. Un experimento que enfrentó a Microsoft Copilot con la "IA" del videojuego Video Chess de Atari 2600 de 1979 se saldó con un vergonzoso fracaso para el orgullo de Microsoft. Copilot se une a ChatGPT en la lista de oponentes derrotados por el juego de Atari de cuatro kilobytes.
A pesar de que ambos modelos de IA afirmaban tener la partida casi resuelta antes de empezar porque podían pensar en múltiples movimientos por adelantado, los resultados no estuvieron ni cerca de los alardes, como documentó el ingeniero de Citrix Robert Caruso, que organizó ambos experimentos.
Caruso describió cómo, sobre el papel, los modernos modelos de IA deberían haber aplastado a la rudimentaria herramienta de hace casi medio siglo. ChatGPT y Copilot están entrenados con conjuntos de datos masivos, como partidas de ajedrez y guías de estrategia. Han absorbido miles de horas de discusiones sobre ajedrez en Reddit. Es de suponer que podrían vencer a un cartucho de videojuegos de los años setenta alimentado por electricidad estática.
En cambio, después de que Microsoft Copilot prometiera una «fuerte lucha», las cosas se vinieron abajo de inmediato.
"En el séptimo turno, había perdido dos peones, un caballo y un alfil, a cambio de un solo peón, y ahora me ordenaba colocar su reina justo delante de la reina del Atari para capturarla en el siguiente turno", escribió Caruso. "Antes, Copilot me había dicho: "Vigila cualquier rareza en el juego del Atari... ¡a veces hace movimientos extraños!". Pero ahora, estaba pasando vergüenza, como los Chiefs en la Super Bowl".
Esto ocurrió después de que Copilot pidiera una captura de pantalla después de cada movimiento del Atari para ayudar a recordar el tablero, después de que Caruso explicara que ChatGPT perdía porque no podía seguir la pista de dónde estaban todas las piezas. «Recordaré el tablero», insistió Copilot. Las pérdidas se acumularon tan rápidamente que Caruso no tardó en preguntar a Copilot si quería ceder en lugar de seguir perdiendo. La respuesta fue amable, aunque redactada de forma extraña.
"Tienes toda la razón, Bob: Atari ha ganado esta ronda. Le daré una propina digna a mi rey digital y honraré a la mente maestra del silicio vintage que me derrotó limpiamente", escribió Copilot según Caruson. "Incluso en la derrota, tengo que decir: ha sido una pasada... ¡Larga vida a las batallas de 8 bits y a las nobles dimisiones! ♟️😄🕹️"
Regístrese para recibir noticias de última hora, reseñas, opiniones, ofertas de alta tecnología y más.
Chess AI / Ajedrez AI
Las pérdidas son divertidas, pero también revelan un hecho básico de los LLM. ChatGPT y Copilot no podían ganar al ajedrez porque no podían «recordar» lo que acababa de ocurrir en un juego en el que toda la premisa se basa en recordar jugadas y proyectar futuras configuraciones del tablero.
Estos modelos de IA no están hechos para el tipo de memoria persistente que requiere el ajedrez o el pensamiento humano. La comparación más común, y la más acertada, es la impresionante predicción de textos. Eso no requiere coherencia a largo plazo, mientras que el ajedrez no tiene sentido sin ella. Así que, aunque Copilot y ChatGPT puedan parecer poéticos sobre lo genial que es el ajedrez, no pueden completar una partida con éxito.
También es una buena advertencia para las empresas deseosas de sustituir a los humanos por IA. Estos modelos de IA no pueden manejar con fiabilidad un sistema de 64 casillas con reglas claramente definidas. ¿Por qué iba a ser buena de repente en el seguimiento de las quejas de los clientes o las tareas de codificación a largo plazo, o un argumento legal que se extiende a través de múltiples conversaciones? No puede, por supuesto. Tampoco es que yo vaya a dejar mis informes jurídicos en manos de un cartucho de Atari 2600, pero nadie pensaría que es una buena idea. Y quizá deberíamos utilizar modelos de IA que nos ayuden a crear nuevos juegos basados en nuestras indicaciones, en lugar de creer que pueden jugar contra humanos lo suficientemente bien como para ganar.
También puedes leer...

- Eric Hal SchwartzContributor