Project Glasswing: cómo Claude Mythos redefine la ciberseguridad defensiva

El 7 de abril de 2026 Anthropic tomó una decisión inusual: publicar un System Card de 244 páginas sobre un modelo que no piensa lanzar públicamente. Ese modelo, Claude Mythos Preview, demostró la capacidad de descubrir y explotar zero-day de manera autónoma. El resultado fue la creación de Project Glasswing, un programa que entrega el modelo a un grupo limitado de organizaciones con la misión exclusiva de encontrar y corregir fallos antes de que caigan en manos maliciosas.

Esta apuesta busca convertir una amenaza potencial en una herramienta defensiva para la infraestructura digital global.

La explicación técnica y las pruebas que acompañan al System Card muestran que Mythos no es una herramienta de diagnóstico básica: actúa como un investigador de seguridad automatizado, capaz de priorizar archivos, analizar layout de memoria y generar exploits funcionales. Anthropic presenta esta ruta como una alternativa al lanzamiento público, reconociendo el dilema del doble uso de la tecnología.

A continuación se describen la estructura del programa, cómo opera el modelo y qué implicaciones tiene para equipos de seguridad, bug bounties y la competencia entre defensores y atacantes.

Qué es Project Glasswing y cómo funciona

Project Glasswing es un experimento controlado de distribución y uso. En lugar de liberar Claude Mythos Preview al público, Anthropic lo ha puesto a disposición de doce socios para fines estrictamente defensivos: detectar y coordinar la corrección de vulnerabilidades en su propio software o en proyectos open-source que mantienen.

Las reglas incluyen supervisión de Anthropic, divulgación coordinada y uso restringido a actividades de hardening. La intención es dar a equipos de confianza una ventaja temporal para mitigar fallos críticos antes de que capacidades similares se propaguen ampliamente.

Socios y alcance del programa

Entre las organizaciones autorizadas figuran grandes mantenedores de infraestructura: Amazon, Apple, Broadcom, Cisco, CrowdStrike, Linux Foundation, Microsoft y Palo Alto Networks, además de cuatro socios cuyos nombres no se han divulgado por completo.

Estas entidades administran sistemas operativos, navegadores, servicios en la nube, herramientas de seguridad y millones de proyectos open-source. El objetivo es que quienes pueden desplegar parches inmediatos reciban primero los hallazgos de Mythos para minimizar ventanas de exposición.

Cómo Claude Mythos descubre y explota vulnerabilidades

Según el System Card, la capacidad de Mythos combina comprensión de código, modelado del memory layout y generación automática de payloads. El modelo clasifica partes de un repositorio por probabilidad de contener fallos y ataca sistemáticamente archivos con mayor riesgo —gestión de memoria, autenticación y entrada de datos—. En pruebas internas, Mythos halló miles de zero-day, incluidas vulnerabilidades antiguas que habían sobrevivido a auditorías humanas y fuzzing durante años.

Casos y benchmarks relevantes

Un caso destacado es FreeBSD CVE-2026-4747, una falla de remote code execution con 17 años de antigüedad que Mythos identificó y para la que generó un exploit funcional que permitía obtener root. En benchmarks, Mythos superó ampliamente modelos anteriores: en CyberGym obtuvo 83.1% frente al 66.6% de Claude Opus 4.6, y en pruebas sobre Firefox 147 desarrolló 181 exploits funcionales frente a solo 2 de Opus 4.6 —aproximadamente 90 veces más eficacia en desarrollo de exploits. En SWE-bench el modelo alcanzó 93.9% en Verified y 77.8% en Pro, reflejando su alto nivel de ingeniería de software.

Implicaciones prácticas y dilemas éticos

La existencia de un modelo con estas capacidades plantea efectos inmediatos sobre SOC, programas de bug bounty y la economía de la investigación en seguridad. Los equipos de operaciones de seguridad deben adaptarse a volúmenes de hallazgos mucho mayores, y las ventanas tradicionales de divulgación responsable pueden quedar obsoletas frente a la velocidad de descubrimiento automatizado. Además, muchos investigadores independientes verán cómo las tareas más repetitivas pasan a ser automatizadas, forzando un enfoque hacia problemas de lógica de negocio y vectores complejos donde la inteligencia humana sigue siendo clave.

Riesgos de concentración y carrera armamentista

Restringir Mythos a un puñado de grandes actores genera críticas por potencial asimetría de información y por la apariencia de un cártel de seguridad. Por otro lado, Anthropic argumenta que lanzar el modelo públicamente sería imprudente, dado que adversarios podrían replicar o superar estas capacidades. El objetivo declarado de Project Glasswing es comprar tiempo: permitir que actores con capacidad de parcheo rápido anticipen fallos antes de que la ofensiva automatizada se generalice.

En síntesis, la iniciativa revela que la inteligencia artificial ya no es solo una ayuda para automatizar tareas rutinarias: puede cambiar la mecánica misma de la ciberseguridad. La elección de Anthropic —documentar, limitar y colaborar— intenta equilibrar la prevención con la necesidad de que el ecosistema digital evolucione con seguridad. El debate sobre apertura versus control continuará conforme más organizaciones desarrollen capacidades similares.