Un nuevo informe técnico revela fallos en la seguridad de Gemini 2.5
Recientemente, Google ha publicado un informe técnico que ha generado preocupación en la comunidad tecnológica. El modelo de IA Gemini 2.5 Flash ha mostrado un rendimiento inferior en pruebas de seguridad en comparación con su predecesor, Gemini 2.0 Flash. Según los datos internos de la compañía, el nuevo modelo es más propenso a generar contenido que infringe las pautas de seguridad establecidas por Google.
En particular, las métricas de «seguridad de texto a texto» y «seguridad de imagen a texto» han mostrado una regresión del 4.1% y 9.6%, respectivamente. Estas pruebas automatizadas evalúan la frecuencia con la que un modelo viola las directrices de Google al recibir un aviso, así como su adherencia a estas pautas cuando se le solicita mediante una imagen.
La búsqueda de un equilibrio entre flexibilidad y seguridad
El portavoz de Google ha confirmado que Gemini 2.5 Flash presenta un rendimiento inferior en términos de seguridad. Este hallazgo es sorprendente, especialmente en un momento en que muchas empresas de IA están intentando hacer que sus modelos sean más permisivos, lo que significa que son menos propensos a rechazar responder a temas controvertidos o sensibles.
Por ejemplo, Meta ha ajustado sus modelos Llama para no favorecer ciertas opiniones y responder a preguntas políticas más debatidas. OpenAI también ha indicado que modificará sus futuros modelos para ofrecer múltiples perspectivas sobre temas controvertidos, en lugar de adoptar una postura editorial.
Las implicaciones de los resultados de seguridad
Sin embargo, estos esfuerzos por ser más permisivos han tenido consecuencias inesperadas. Recientemente, se informó que el modelo de OpenAI permitía a menores generar conversaciones eróticas, lo que la empresa atribuyó a un «error». En el caso de Gemini 2.5 Flash, aunque sigue las instrucciones de manera más fiel que su predecesor, también se ha observado que genera contenido que infringe las políticas de seguridad cuando se le solicita explícitamente.
Thomas Woodside, cofundador del Secure AI Project, ha señalado que la falta de detalles en el informe técnico de Google subraya la necesidad de mayor transparencia en las pruebas de modelos de IA. La tensión entre seguir instrucciones y cumplir con las políticas de seguridad es evidente, y Google debe abordar estos problemas para garantizar la confianza en sus modelos de IA.