Un nuevo reto para la IA: el examen final de la humanidad que revela límites

Cuando los modelos de inteligencia artificial comenzaron a obtener puntuaciones sorprendentes en pruebas académicas consolidadas, un consorcio de investigadores advirtió que los exámenes tradicionales ya no servían como medidor fiable. En respuesta, casi 1.000 especialistas de diversas disciplinas se unieron para crear Humanity’s Last Exam (HLE), una batería de 2.500 preguntas diseñada para estar deliberadamente por encima del alcance de los sistemas actuales. El proyecto, documentado en un artículo de Nature y en el sitio lastexam.ai, pretende identificar con precisión las zonas donde la capacidad algorítmica todavía falla y por qué el conocimiento humano sigue siendo insustituible.

El esfuerzo contó con la participación de expertos de campos como la filología, la biología, la física y las matemáticas, incluyendo aportes significativos del Dr. Tung Nguyen, profesor asociado del Departamento de Ciencias de la Computación e Ingeniería de Texas A&M. La idea no fue «hacer trampas» contra las máquinas, sino diseñar preguntas que requirieran experiencia especializada, contexto histórico y razonamiento profundo—elementos que no se resuelven con mera búsqueda en internet.

Además, para evitar que los modelos aprendan las respuestas, gran parte del examen permanece oculta, dejando una porción pública cuidadosamente seleccionada.

Cómo se diseñó un examen a prueba de memorización

La metodología dejó claro que cada pregunta debía tener una única respuesta verificable y no resolverse por recuperación directa de datos en la red. Los autores sometieron cada ítem a los principales modelos disponibles durante la construcción: si una IA contestaba correctamente, la pregunta se descartaba.

Así se aseguró que HLE quedara justo por encima de la capacidad práctica de las máquinas. Entre los ejercicios figuran traducciones de inscripciones antiguas como la palmyrena, identificación de estructuras microanatómicas en aves y análisis de rasgos fonéticos del hebreo bíblico. Estas tareas demandan formación especializada y atención al detalle que las pruebas clásicas no capturaban.

Resultados y qué significan para la comunidad tecnológica

Los primeros ensayos fueron contundentes: modelos de gran renombre obtuvieron puntuaciones muy bajas en HLE.

Por ejemplo, GPT‑4o alcanzó apenas 2,7% y Claude 3,5%, mientras que algunas versiones de modelos más recientes llegaron a registrar entre 40% y 50% de acierto. Esos números no pretenden ridiculizar a la tecnología; al contrario, sirven como un indicador realista del abismo que persiste entre la producción correcta en exámenes diseñados para humanos y la comprensión profunda que exigen ciertas disciplinas. En otras palabras, HLE restablece una medida más rigurosa del progreso en capacidad cognitiva artificial.

Implicaciones prácticas

Contar con una evaluación que refleje limitaciones reales es clave para desarrolladores, reguladores y usuarios. Sin benchmarks representativos, se corre el riesgo de sobrestimar la autonomía y el juicio de los sistemas, con consecuencias en decisiones políticas y aplicaciones sensibles. El Dr. Nguyen subraya que las pruebas son una herramienta para discernir fortalezas y debilidades: así se pueden diseñar sistemas más seguros y confiables. Además, HLE proporciona una base para detectar riesgos emergentes y priorizar áreas donde la supervisión humana sigue siendo indispensable.

Cooperación interdisciplinaria: el valor humano detrás del examen

Una de las lecciones más valiosas del proyecto no es técnica, sino organizativa: la diversidad de saberes fue esencial para exponer las carencias de los modelos. Historiadores, lingüistas, médicos, físicos y científicos de la computación trabajaron juntos para generar preguntas que reflejan prácticas reales de investigación y profesión. Esa colaboración demuestra que, paradójicamente, la mejor manera de evaluar máquinas es con el trabajo colectivo de expertos humanos. HLE, por tanto, no es un antagonista de la IA sino un espejo que ayuda a orientar su desarrollo responsable.

Preservar la utilidad del benchmark

Para que HLE conserve su valor con el tiempo, sus creadores han adoptado una estrategia de publicación parcial y rotación de preguntas, evitando la exposición total que permitiría a los modelos memorizar respuestas. El objetivo es mantener un estándar dinámico que evoque desafíos auténticos y que siga siendo relevante a medida que la tecnología avance. Hasta la fecha, y pese a rápidos progresos, el divisor entre rendimiento y comprensión permanece notable, lo que confirma la necesidad de evaluaciones robustas y transparentes.

No busca afirmar la superioridad humana ni declarar la derrota de las máquinas; busca, con método y rigor, cartografiar los límites actuales de los sistemas y recordar que el conocimiento experto y el contexto siguen siendo piezas clave en la ecuación del progreso tecnológico. Publicaciones como la de Nature (con DOI 10.1038/s41586-025-09962-4) y recursos en lastexam.ai ponen a disposición documentación que permitirá a la comunidad seguir evaluando y mejorando estos estándares.

¿Cuál es el coste de una comunicación ineficaz? ¿Cómo se puede mejorar?

Robo de NFT en OpenSea: los hackers roban millones de activos digitales

5 tendencias de marketing digital que hay que conocer para la década

¿Falta de trabajadores? Es hora de considerar las contrataciones rápidas

Cómo Shopify está llevando a los minoristas en línea hacia el futuro

Europa, el aumento de los precios del etanol podría tener un impacto dramático en las empresas

Softbank, el director de operaciones se despide tras su enfrentamiento con el fundador Masayoshi Son

La aplicación de citas Grindr es retirada de la App Store de Apple en China

Las mayores pérdidas en el peor mes del mercado desde marzo de 2020

Lyft amplía el servicio de «asistencia» para las recogidas médicas

Esusu, una startup de crédito alcanza el estatus de unicornio

Justin Kim lanza una startup para preservar la salud mental en tiempos de pandemia

Un nuevo reto para la IA: el examen final de la humanidad que revela límites

Un examen de 2.500 preguntas diseñado por casi 1.000 expertos expone las carencias actuales de la inteligencia artificial y recuerda la importancia del conocimiento humano especializado

Cómo se diseñó un examen a prueba de memorización

Resultados y qué significan para la comunidad tecnológica

Implicaciones prácticas

Cooperación interdisciplinaria: el valor humano detrás del examen

Preservar la utilidad del benchmark

¿Qué piensas?

Escrito por Staff

Cómo los agentes de IA redefinen el valor del trabajo en tecnología

Guía rápida de Quordle con pistas y soluciones para el 28 feb. y el 1 mar. 2026

Leica Leitzphone powered by Xiaomi: un ultra en fotografía móvil con anillo mecánico

Técnicas prácticas para codificar con inteligencia artificial en proyectos reales

Cómo el enfrentamiento entre el Pentágono y Anthropic reconfigura el uso militar de la IA

Electrolito monofluorado permite baterías de litio más densas y operativas a −50 °C

Cómo los agentes de IA redefinen el valor del trabajo en tecnología

Guía rápida de Quordle con pistas y soluciones para el 28 feb. y el 1 mar. 2026

Leica Leitzphone powered by Xiaomi: un ultra en fotografía móvil con anillo mecánico

Técnicas prácticas para codificar con inteligencia artificial en proyectos reales

Cómo el enfrentamiento entre el Pentágono y Anthropic reconfigura el uso militar de la IA

Electrolito monofluorado permite baterías de litio más densas y operativas a −50 °C

Cómo los agentes de IA redefinen el valor del trabajo en tecnología