Por qué Anthropic no libera Claude Mythos y cómo afectará a la ciberseguridad

La compañía Anthropic desarrolló Claude Mythos Preview, un modelo de inteligencia artificial que demostró una capacidad notable para localizar fallos de seguridad a gran escala. Tras una filtración relacionada con su sistema de gestión de contenidos, la existencia y algunas capacidades del modelo se hicieron públicas antes de lo previsto. Ante el riesgo de que actores malintencionados explotaran esas capacidades, Anthropic optó por no publicar el modelo de forma abierta y por activar controles estrictos de acceso, en un intento de gestionar el riesgo de doble uso y reducir la posibilidad de daño.

En lugar de una disponibilidad general, la empresa puso en marcha el llamado Project Glasswing, un programa que concede acceso anticipado y controlado a un consorcio de organizaciones consideradas clave para la seguridad de infraestructuras críticas. Entre los participantes figuran grandes tecnológicas y proveedores de ciberseguridad como Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks, además de más de cuarenta otras entidades.

Anthropic también comprometió recursos económicos para apoyar el despliegue seguro, incluyendo créditos de uso y donaciones a proyectos de seguridad de código abierto.

Qué descubrió Mythos y por qué alarmó a la industria

En pruebas internas, Claude Mythos identificó miles de vulnerabilidades de alta gravedad en sistemas operativos, navegadores y bibliotecas ampliamente usadas. Entre los ejemplos que se han divulgado aparecen un fallo en OpenBSD con décadas de antigüedad, un problema en FFmpeg que había pasado desapercibido pese a pruebas automatizadas y la capacidad de encadenar fallos en el kernel de Linux para escalar privilegios.

Estos hallazgos ilustran cómo un modelo generalista puede articular razonamiento y programación para detectar errores que las herramientas convencionales no habían visto.

Casos concretos que preocupan

Los tres ejemplos públicos —un bug de larga data en OpenBSD, una vulnerabilidad en FFmpeg y una cadena de explotaciones en Linux— muestran fallos en componentes que sostienen servicios críticos. En métricas comparativas, Mythos obtuvo resultados significativamente superiores frente a modelos previos, lo que sugiere una mejora no incremental en la capacidad de hallar zero-day.

Esa eficacia convierte al sistema en una herramienta con potencial dual: puede mejorar la defensa, pero en manos equivocadas aceleraría la creación de exploits.

Project Glasswing: enfoque colaborativo y limitaciones

La apuesta de Anthropic con Project Glasswing busca que defensores y mantenedores de infraestructuras críticas reciban un “adelanto” para localizar y parchear vulnerabilidades antes de que capacidades equivalentes se generalicen. La iniciativa combina acceso técnico controlado, apoyos económicos y colaboración con la comunidad de seguridad. Sin embargo, hasta ahora menos del 1% de las vulnerabilidades potenciales detectadas por las pruebas se han cerrado por completo, lo que evidencia la magnitud del trabajo pendiente y la dificultad de remediar rápidamente a escala.

Participación y compromisos

Además de empresas tecnológicas, el consorcio incluye proveedores de seguridad y organizaciones que mantienen software crítico. Anthropic ha anunciado créditos y donaciones para facilitar el uso responsable del modelo y apoyar proyectos de seguridad de código abierto; el objetivo es equilibrar la ventaja defensiva con las precauciones necesarias para no ampliar la ventana de ataque. La metáfora del nombre, que evoca a una mariposa de alas transparentes, subraya la idea de vulnerabilidades que son relativamente invisibles hasta que alguien sabe dónde mirar.

Impacto a medio plazo y qué deben hacer las organizaciones

El avance que representa Mythos plantea una disrupción en la economía de la búsqueda de errores: la automatización masiva reduce la dependencia de detecciones manuales y obliga a replantear incentivos como los bug bounty. Los expertos señalan que la prioridad debe ser acortar la ventana de exposición —el tiempo en que un fallo permanece explotable— y mover controles de seguridad hacia las fases tempranas del desarrollo. En la práctica, esto significa integrar IA defensiva en el ciclo de vida del software y exigir que las fábricas de código entreguen evidencia de seguridad automatizada y verificable.

Riesgos residuales y posibles rutas

Anthropic ha indicado que trabajará en modelos menos peligrosos, como Claude Opus, para diseñar salvaguardas antes de una posible liberación más amplia de capacidades similares a Mythos. Si esas barreras funcionan, el despliegue podrá ampliarse; si no lo hacen, existe el riesgo de que otras organizaciones desarrollen herramientas equivalentes sin las mismas precauciones. En cualquier caso, la lección es clara: la defensa debe operar a la velocidad de las máquinas y con la escala de las redes.

En síntesis, Claude Mythos Preview y Project Glasswing representan un punto de inflexión para la ciberseguridad: ofrecen una poderosa oportunidad para mejorar la seguridad global, pero imponen la obligación de adoptar prácticas de innovación responsable y de transformar procesos y políticas para mitigar riesgos antes de que la tecnología se convierta en una amenaza adicional.