Nuevo agente de seguridad de OpenAI detecta fallos críticos y reduce falsos positivos

OpenAI ha puesto a disposición de sus clientes una nueva solución llamada Codex Security, diseñada para identificar vulnerabilidades en proyectos de software con mayor precisión. A diferencia de muchas herramientas que generan alertas de bajo impacto o numerosos falsos positivos, este agente combina la capacidad de razonamiento de modelos avanzados con procesos de validación automatizada, lo que permite presentar hallazgos con mayor confianza y menor ruido. En su fase inicial, la plataforma funcionó como prueba privada y ahora se ofrece en research preview para clientes de ChatGPT Pro, Enterprise, Business y Edu, con un mes de uso gratuito para quienes lo prueben.

La propuesta central de Codex Security es construir un conocimiento profundo del proyecto que analiza: desde la estructura del repositorio hasta modelos de amenazas específicos del sistema. Esa contextualización ayuda al agente a priorizar vulnerabilidades según su impacto real y a reducir las alertas innecesarias que consumen tiempo de los equipos de seguridad. Además, la herramienta no solo detecta problemas, sino que intenta validarlos en entornos aislados y sugiere correcciones que minimizan regresiones, facilitando así la revisión y el despliegue de parches.

Cómo opera Codex Security

El funcionamiento de Codex Security puede describirse en varios pasos prácticos: primero, analiza el repositorio para construir una representación del sistema y generar un modelo de amenazas editable que refleje las partes más expuestas. A partir de ese contexto, el agente busca vectores de ataque y clasifica los hallazgos por impacto potencial en el mundo real. Luego, somete las posibles vulnerabilidades a pruebas en un sandbox para validar que el problema existe realmente, reduciendo así el número de falsos positivos antes de reportarlos a los equipos humanos.

Validación y priorización

La combinación de razonamiento agentico y validación automatizada es la que permite diferenciar a Codex Security de otras soluciones que se limitan a reglas estáticas o simples coincidencias de patrones. Al validar pruebas de concepto en el contexto de un sistema en ejecución, el agente puede entregar evidencia reproducible y recomendaciones de corrección que respetan el comportamiento del proyecto. Según los datos compartidos por OpenAI, las mejoras durante la beta disminuyeron alertas innecesarias en muchos repositorios y redujeron la sobreestimación de la gravedad en varios casos.

Resultados de la fase de prueba

Durante su etapa privada, el agente —anteriormente conocido como Aardvark— escaneó millones de cambios en repositorios externos y detectó miles de problemas de alta severidad en proyectos de código abierto, incluyendo bibliotecas y aplicaciones ampliamente utilizadas. Entre los hallazgos reportados se cuentan fallos críticos como errores de autenticación entre inquilinos y problemas de server-side request forgery. OpenAI afirma que, gracias a la mejora de precisión, el porcentaje de falsos positivos cayó significativamente y la calidad de los hallazgos aumentó, lo que permitió a los equipos de seguridad centrarse en las vulnerabilidades que realmente importan.

Acceso y competencia en el mercado

Codex Security está disponible en vista previa de investigación para clientes seleccionados y será gratuito durante el primer mes de uso, tras lo cual es probable que se ofrezca como una característica de pago complementaria. La solución se posiciona en un mercado donde otras compañías también lanzan herramientas similares; por ejemplo, competidores han introducido agentes destinados a escanear código y sugerir parches. OpenAI, por su parte, planea ampliar el acceso a mantenedores de proyectos open source mediante programas específicos que ofrezcan escaneo y soporte para la remediación de vulnerabilidades.

Implicaciones para equipos de seguridad

Para los equipos de seguridad y desarrollo, la llegada de Codex Security representa una oportunidad para aliviar la carga de triage y acelerar revisiones de seguridad sin sacrificar la profundidad del análisis. Al proporcionar hallazgos validados y parches sugeridos alineados con el comportamiento del sistema, la herramienta facilita el proceso de corrección y despliegue. Sin embargo, sigue siendo esencial que los equipos humanos supervisen y ajusten los modelos y las pruebas en función del contexto organizativo y los requisitos regulatorios.

En síntesis, Codex Security busca cambiar la relación entre velocidad de desarrollo y calidad de la seguridad, ofreciendo priorización basada en impacto, reducción de ruido y guías de remediación. Su eficacia real dependerá de la integración con flujos de trabajo existentes y de la adaptación a las particularidades de cada código base, pero los resultados de las primeras pruebas sugieren que este enfoque centrado en contexto del sistema y validación puede transformar cómo se descubren y corrigen las vulnerabilidades.

¿Cuál es el coste de una comunicación ineficaz? ¿Cómo se puede mejorar?

Robo de NFT en OpenSea: los hackers roban millones de activos digitales

5 tendencias de marketing digital que hay que conocer para la década

¿Falta de trabajadores? Es hora de considerar las contrataciones rápidas

Cómo Shopify está llevando a los minoristas en línea hacia el futuro

Europa, el aumento de los precios del etanol podría tener un impacto dramático en las empresas

Softbank, el director de operaciones se despide tras su enfrentamiento con el fundador Masayoshi Son

La aplicación de citas Grindr es retirada de la App Store de Apple en China

Las mayores pérdidas en el peor mes del mercado desde marzo de 2020

Lyft amplía el servicio de «asistencia» para las recogidas médicas

Esusu, una startup de crédito alcanza el estatus de unicornio

Justin Kim lanza una startup para preservar la salud mental en tiempos de pandemia

Nuevo agente de seguridad de OpenAI detecta fallos críticos y reduce falsos positivos

OpenAI ha presentado Codex Security, una herramienta diseñada para encontrar y validar fallos de seguridad complejos, priorizar hallazgos y proponer correcciones aplicables

Cómo opera Codex Security

Validación y priorización

Resultados de la fase de prueba

Acceso y competencia en el mercado

Implicaciones para equipos de seguridad

¿Qué piensas?

Escrito por Staff

Margo y OnlyFans: una serie sobre maternidad, estrategia y supervivencia económica

Evaluación de GPT-5.4 Thinking: cuándo confiar en sus respuestas y cuándo supervisarlo

Chevrolet Bolt 2027: regreso limitado con carga rápida, batería LFP y precio accesible

Algoritmos, robots y privacidad: qué está en juego en el mundo digital

Cuando los agentes de IA invierten: el futuro del capital de riesgo

Stargate reduce su plan en Abilene y pivota hacia nuevos chips

Evaluación de GPT-5.4 Thinking: cuándo confiar en sus respuestas y cuándo supervisarlo

Chevrolet Bolt 2027: regreso limitado con carga rápida, batería LFP y precio accesible

Algoritmos, robots y privacidad: qué está en juego en el mundo digital

Stargate reduce su plan en Abilene y pivota hacia nuevos chips

Polémica Ring y privacidad: cómo las funciones de IA pusieron a la empresa en el centro del debate

Método rápido y barato para producir actuadores de robótica blanda

Margo y OnlyFans: una serie sobre maternidad, estrategia y supervivencia económica