La inteligencia artificial ha avanzado enormemente en los últimos años, convirtiéndose en una herramienta crucial en múltiples campos. Sin embargo, la forma en que estos modelos aprenden sigue siendo un tema de interés constante. Tradicionalmente, los sistemas de IA se han basado en la imitación de ejemplos humanos o en la resolución de problemas planteados por instructores. Hoy en día, los investigadores están explorando un nuevo camino que permite a la IA aprender de manera más autónoma, generando sus propias preguntas y buscando respuestas de forma activa.
Un proyecto innovador desarrollado por un equipo de la Universidad Tsinghua, el Beijing Institute for General Artificial Intelligence (BIGAI) y la Universidad Estatal de Pensilvania ha dado un paso significativo en esta dirección. Han creado un sistema denominado Absolute Zero Reasoner (AZR), que utiliza un modelo de lenguaje avanzado para generar problemas de codificación en Python que son desafiantes pero resolubles.
El funcionamiento del Absolute Zero Reasoner
El proceso que utiliza el AZR comienza con la generación de problemas de codificación, que luego son resueltos por el mismo modelo.
Este ciclo de creación y resolución no solo permite a la IA mejorar sus capacidades de razonamiento, sino que también la ayuda a identificar y formular problemas más complejos a medida que avanza. Este enfoque ha demostrado ser efectivo, mejorando notablemente las habilidades de codificación de modelos de lenguaje como Qwen, que cuenta con versiones de 7 y 14 mil millones de parámetros.
Un aprendizaje comparable al humano
En una conversación reciente con Andrew Zhao, un estudiante de doctorado de la Universidad Tsinghua, se destacó que el método AZR refleja el proceso de aprendizaje humano.
Zhao explicó: «Inicialmente, uno imita lo que ve, pero eventualmente empieza a formular sus propias preguntas, lo que permite superar a los maestros». Esta capacidad de autoexploración en IA es similar a la evolución del conocimiento en los seres humanos, donde el aprendizaje va más allá de la simple repetición.
El investigador Zilong Zheng, del BIGAI, también añadió que la idea detrás del aprendizaje autónomo de la IA ha sido explorada por pioneros como Jürgen Schmidhuber y Pierre-Yves Oudeyer.
La autoexploración, también conocida como auto-juego, ha sido fundamental para el desarrollo de modelos de IA que pueden crecer y adaptarse a nuevas situaciones.
Escalabilidad y desafíos actuales
Una de las características más intrigantes del AZR es su capacidad para escalar. Zheng explicó que a medida que el modelo se vuelve más potente, también lo hace la complejidad de los problemas que puede plantear y resolver. Sin embargo, uno de los desafíos a enfrentar es que, por ahora, el sistema solo se aplica a problemas que pueden ser verificados fácilmente, como los matemáticos o de programación.
Perspectivas futuras
A medida que el proyecto avanza, se prevé que el AZR pueda extenderse a tareas más complejas, como la navegación web o la realización de tareas administrativas. Este enfoque podría permitir a los modelos de IA evaluar la corrección de las acciones de un agente, ampliando así su aplicación. Zheng también mencionó que la capacidad de aprender de manera autónoma podría ser un paso hacia la creación de una superinteligencia, una meta ambiciosa en el campo de la inteligencia artificial.
Recientemente, algunos de los principales laboratorios de IA han comenzado a adoptar conceptos similares a los del AZR. Un ejemplo es el proyecto Agent0, que busca mejorar las capacidades de razonamiento a través del auto-juego. Este tipo de investigación va cobrando fuerza en la comunidad científica, sugiriendo que la búsqueda de nuevas formas de aprendizaje en IA será un tema prominente en el sector tecnológico en los años venideros.
Con la creciente escasez y el costo de los datos convencionales, los laboratorios están explorando métodos alternativos para hacer que los modelos sean más capaces. El enfoque del AZR podría marcar un cambio significativo, alejando a los sistemas de IA de su papel de meros imitadores y acercándolos a un aprendizaje similar al humano.


