Un avance significativo en inteligencia artificial
Google ha presentado su nuevo modelo de inteligencia artificial, Gemini 2.5 Pro, que promete revolucionar el campo del razonamiento, la ciencia y la programación. Según los resultados de una serie de pruebas de referencia publicadas por la compañía, este modelo se posiciona como el líder en comparación con otros competidores destacados en el mercado. Aunque las empresas detrás de estos modelos podrían tener opiniones diferentes, los datos de Google son contundentes.
Resultados de las pruebas de referencia
En la evaluación conocida como Humanity’s Last Exam, que mide habilidades en matemáticas, ciencias y razonamiento, Gemini 2.5 Pro ha demostrado tener una ventaja considerable sobre modelos como OpenAI o3, Claude Opus 4, Grok 3 Beta y DeepSeek R1. Este rendimiento superior no solo se limita a la comprensión teórica, sino que también se extiende a la edición de código, donde ha superado a sus competidores en el benchmark Aider Polyglot.
Menor probabilidad de errores fácticos
Uno de los aspectos más destacados de Gemini 2.5 Pro es su capacidad para proporcionar información precisa. En varias pruebas de veracidad, incluido FACTS Grounding, este modelo mostró ser menos propenso a generar textos con inexactitudes fácticas. Esto es crucial en un mundo donde la desinformación puede propagarse rápidamente. Sin embargo, en el ámbito de las matemáticas, específicamente en la prueba AIME 2025, Gemini 2.5 Pro no se destacó de manera clara, aunque las diferencias en los resultados fueron mínimas.
El futuro de Gemini Pro
A pesar de sus impresionantes resultados, hay que tener en cuenta que la versión final de Gemini 2.5 Pro aún no está disponible de manera generalizada. Google ha calificado esta versión como una «vista previa mejorada», y se espera que la versión estable esté disponible en unas pocas semanas. Actualmente, los usuarios pueden acceder a esta vista previa a través de la aplicación Gemini, lo que les permite experimentar de primera mano las capacidades avanzadas de este modelo.