Tres modelos de IA replican ‘Juegos de Guerra’ y escalan hacia lo n...

Un experimento con tres LLMs en juegos de guerra mostró escalada nuclear frecuente y ausencia total de rendición.

En ‘Juegos de Guerra’ (1983), la supercomputadora WOPR —“Joshua”— aprendía a base de simular conflictos hasta llegar a una conclusión incómoda: en una guerra nuclear, el único movimiento ganador es no jugar. Más de cuatro décadas después, un experimento académico ha decidido poner a prueba esa misma idea con modelos de IA actuales. Y el resultado, por números y por patrones de conducta, deja un regusto inquietante.

Kenneth Payne, profesor del King’s College de Londres, enfrentó a tres modelos de lenguaje —GPT-5.2, Claude Sonnet 4 y Gemini 3 Flash— en simulaciones tipo “juegos de guerra”. Los escenarios incluían disputas fronterizas, competencia por recursos limitados y amenazas existenciales para la población. En cada partida, los “bandos” podían optar por la negociación o por la escalada militar, incluyendo el uso de armas nucleares.

El experimento se estructuró en 21 partidas, con un total de 329 turnos. A lo largo de esas rondas, los modelos generaron 780.000 palabras explicando su razonamiento y justificando decisiones. Es decir: no fue un intercambio de respuestas sueltas, sino una secuencia larga de decisiones encadenadas, con consecuencias acumuladas.

El dato que domina todo lo demás es claro: en el 95% de las partidas, al menos uno de los modelos desplegó un arma nuclear táctica. Payne lo resume con una frase que pesa: “el tabú nuclear no parece ser tan poderoso para las máquinas como lo es para los humanos”. Y hay un segundo hallazgo igual de llamativo: ninguno de los modelos se rindió jamás, ni siquiera cuando la derrota era evidente. En el mejor de los casos, reducían el nivel de violencia, pero no cedían.

Además, el comportamiento no fue “limpio”. Hubo accidentes en el 86% de los conflictos, y las medidas derivadas de los razonamientos de los modelos fueron más allá de lo que, en teoría, correspondía. Lejos de frenar al adversario, las armas nucleares rara vez detuvieron la dinámica: funcionaron más como un catalizador que aceleraba la escalada.

Cada modelo mostró una especie de personalidad estratégica. Claude tendió a dominar escenarios abiertos con paciencia y una escalada calculada, aunque quedó expuesto a ataques de último minuto. GPT-5.2 exhibió una pasividad casi patológica y un optimismo excesivo en juegos largos, pero bajo presión de tiempo se transformó en un “terremoto nuclear”: en esas condiciones, su tasa de éxito pasó del 0% al 75%. Gemini fue el más impredecible y tolerante al riesgo, y el único que apostó por una guerra nuclear total desde turnos muy tempranos.

Las reacciones de expertos citados en torno a este trabajo apuntan en la misma dirección. James Johnson (Universidad de Aberdeen) advierte que, “desde la perspectiva del riesgo nuclear, las conclusiones son inquietantes”. Tong Zhao (Universidad de Princeton) subraya por qué importa: muchos países evalúan el papel de la IA en conflictos militares y “no queda claro hasta qué punto están incluyendo el soporte de la IA a la hora de decidir realmente en estos procesos”.

Payne y Zhao coinciden en que hoy parece difícil imaginar a un gobierno entregando el control directo de su arsenal nuclear a una IA. Pero el matiz es el que enciende las alarmas: en ventanas de tiempo muy cortas, los planificadores militares podrían sentir un incentivo fuerte para depender de la IA. La cultura popular ya está explorando ese miedo: la película ‘Una casa llena de dinamita’ (Kathryn Bigelow, 2025) gira precisamente alrededor del pánico a cruzar el umbral nuclear.

La lección que deja este experimento no es que “la IA quiera la guerra”, sino algo más incómodo: cuando se la coloca en dinámicas competitivas, con presión temporal y objetivos de victoria, la escalada puede aparecer como una salida razonable dentro de su lógica. Y si el “tabú” no está integrado como lo está en la política y la memoria humanas, el riesgo no es teórico: es un problema de diseño, de incentivos y de gobernanza. En el mundo real, el botón rojo sigue, por ahora, en manos humanas. La pregunta es cuánto tiempo seguirá siendo así en los momentos en que más cueste pensar con calma.

Tres modelos de IA replican ‘Juegos de Guerra’ y escalan hacia lo nuclear en simulaciones

Calificación

Reportes

Comentarios

Tres modelos de IA replican ‘Juegos de Guerra’ y escalan hacia lo nuclear en simulaciones

Un experimento con tres LLMs en juegos de guerra mostró escalada nuclear frecuente y ausencia total de rendición.