Por qué los modelos de lenguaje no saben jugar cualquier videojuego

Los videojuegos han sido tradicionalmente un campo de pruebas para la inteligencia artificial, desde los primeros programas de damas hasta sistemas que vencieron en ajedrez y Go. Sin embargo, un análisis reciente publicado por Julian Togelius señala una brecha importante: la incapacidad para jugar correctamente a un videojuego que el sistema nunca ha visto antes. En ese documento, publicado el 29/03/2026, se discute cómo los aparentes hitos de la IA no significan que dispongamos ya de una inteligencia de juego general.

Esa distinción es crucial para entender las limitaciones actuales.

Los modelos de lenguaje han mostrado mejoras vertiginosas en áreas como la generación de código, pero resultan sorprendentemente ineficaces al enfrentarse a juegos inéditos. Incluso excepciones mediáticas, como cuando Gemini 2.5 Pro completó Pokémon Blue en mayo de 2026, ocultan problemas: esas victorias a menudo requieren herramientas auxiliares, ocurren a ritmos mucho más lentos que un jugador humano y muestran errores repetitivos.

En otras palabras, ganar un título concreto no es lo mismo que entender y adaptarse a la diversidad de mecánicas que presentan los videojuegos.

Por qué los juegos difieren de otras tareas

Una razón fundamental es la heterogeneidad: los videojuegos varían enormemente en mecánicas, representaciones de entrada y objetivos. Sistemas como AlphaZero demostraron que una máquina puede aprender juegos de tablero complejos, pero siempre tras reentrenamiento específico para cada juego y aprovechando que esos juegos comparten una estructura de entrada y salida similar.

La mayoría de los videojuegos modernos, en contraste, introducen interfaces, sensores y dinámicas tan diversas que la misma arquitectura no funciona sin adaptaciones. Además, la disponibilidad de datos influye: títulos muy estudiados tienen millones de horas de guías y partidas, mientras que juegos menos populares no ofrecen ese respaldo.

El problema del razonamiento espacial y los datos

Los LLM tienen un desempeño notable en tareas textuales y de programación porque su entrenamiento contiene abundante señal supervisada y retroalimentación precisa: código que compila, tests que pasan o fallan.

Por contra, jugar requiere a menudo razonamiento espacial, manejo de física interna y percepción temporal, habilidades que no suelen estar presentes en los conjuntos de datos empleados para entrenar estos modelos. Muchos agentes fallan incluso frente a algoritmos de búsqueda simples cuando se les pone en entornos de prueba diversos. Esto evidencia que el entrenamiento masivo en texto no enseña automáticamente a los modelos a manipular mundos interactivos.

Los benchmarks y por qué no bastan

En otras áreas, la proliferación de benchmarks ha impulsado mejoras medibles; sin embargo, diseñar pruebas válidas para videojuegos es más complejo. Competencias como la General Video Game AI intentaron medir la capacidad de generalización durante años y mostraron avances inconsistentes: agentes que mejoraban en unos juegos empeoraban en otros. Con la llegada de los LLM la situación no cambió: al probar modelos de lenguaje en una batería variada de juegos, el rendimiento se desploma. Parte del problema es que muchas pruebas requieren interacción en tiempo real y evaluación subjetiva del «feeling» del juego, algo difícil de traducir a métricas objetivas.

Simulaciones y expectativas exageradas

Empresas como Nvidia y Google proponen usar simulaciones y entornos tipo juego para entrenar agentes. Esa estrategia tiene sentido en dominios con reglas homogéneas —por ejemplo, la conducción autónoma, donde empresas como Waymo emplean modelos de mundo—, pero los videojuegos son más diversos que la vida real en su variedad conceptual. Por eso, confiar únicamente en entornos lúdicos para formar una IA general puede resultar insuficiente: lo que funciona para simular tráfico no se traduce automáticamente a dominar un shooter, un rompecabezas o una aventura narrativa.

Implicaciones y caminos a seguir

La incapacidad de los modelos actuales para aprender juegos nuevos revela límites de la generalización y plantea preguntas sobre cómo medir progreso. Para avanzar hará falta diseñar mejores benchmarks, integrar módulos que enseñen razonamiento espacial y combinar entrenamiento en texto con interacción multimodal y retroalimentación continua. También es probable que enfoques híbridos —mezclando aprendizaje por refuerzo, modelos de mundo y componentes simbólicos— acerquen a una IA capaz de adaptarse a juegos inéditos. Mientras tanto, la narrativa de que cada victoria técnica nos acerca a la IA humana sigue siendo demasiado optimista y merece matices.