Cómo un grupo de Discord logró entrar a Claude Mythos y qué implica

Anthropic enfrenta una investigación tras el reclamo de que un grupo no autorizado logró entrar a Claude Mythos Preview, su modelo de inteligencia artificial reservado para pruebas. La noticia, divulgada por medios como Bloomberg, señala que el acceso se produjo a través de un entorno perteneciente a un proveedor externo, lo que plantea dudas sobre la robustez de los controles cuando se delegan funciones a terceros. Anthropic ha confirmado que investiga el incidente, pero por ahora sostiene que no hay indicios públicos de que su infraestructura central haya sido comprometida.

Según los reportes, el acceso comenzó el 7 de abril, el mismo día en que Anthropic anunció la disponibilidad limitada de Mythos dentro del programa Project Glasswing. Los participantes de ese programa incluyen nombres como Nvidia, Google, Amazon Web Services, Apple, Microsoft y otras empresas de infraestructura crítica, seleccionadas para usar el sistema con fines defensivos. La escala y la naturaleza de las capacidades de Mythos —según la propia empresa— son la razón de la política de acceso cerrado: el modelo puede identificar y, si se le instruye, explotar vulnerabilidades en sistemas operativos y navegadores.

Cómo se produjo el acceso

Los detalles disponibles describen una combinación de factores humanos y de investigación abierta. Un canal privado de Discord dedicado a seguir modelos no publicados fue el punto de coordinación entre los implicados. En ese grupo, al menos una persona tenía credenciales por su trabajo con un contratista que provee entornos a Anthropic; esa cuenta habría servido para entrar al entorno del proveedor. Además, los miembros del grupo usaron conocimientos previos sobre la nomenclatura y la ubicación de recursos de Anthropic para localizar el servicio donde se alojaba el modelo, aprovechando igualmente información pública y filtrada de terceros.

Técnicas empleadas

El acceso no se describió como un exploit sofisticado contra los servidores de Anthropic, sino más bien como un proceso de investigación y combinación de pistas: reconocimiento en internet, deducción del endpoint y uso de credenciales válidas de un tercero. Bloomberg corroboró las afirmaciones con capturas y una demostración en vivo, lo que sugiere que el grupo efectivamente interactuó con Claude Mythos. Los miembros alegaron no haber usado el modelo con fines maliciosos, aunque admitieron que lo emplearon para tareas triviales como crear sitios web de prueba; esa explicación no elimina las implicaciones de seguridad de la brecha.

Por qué importa

Mythos no es un asistente conversacional común: Anthropic lo promovió como una herramienta de ciberseguridad capaz de encontrar fallas críticas en software antes de que sean explotadas por atacantes. Informes indican que el modelo ayudó a detectar cientos de vulnerabilidades en proyectos como navegadores populares y que puede automatizar tareas complejas que habitualmente demandan equipos humanos. Por esa razón se activó la restricción de acceso y el programa de prueba con empresas seleccionadas; la posibilidad de que actores no autorizados logren interactuar con el modelo contradice el argumento central de esa contención limitada.

Alcance técnico y riesgos

Organismos como el Instituto de Seguridad de IA del Reino Unido evaluaron que Mythos era capaz de ejecutar ataques compuestos con múltiples pasos y de descubrir vectores de ataque sin intervención humana. Reportes señalan que el modelo completó simulaciones complejas en pruebas controladas, lo que elevó las preocupaciones sobre su potencial ofensivo. Aunque no hay evidencia pública de que los pesos del modelo se hayan exfiltrado ni de que se haya empleado para ataques reales, la mera posibilidad de replicación o de uso indebido obliga a considerar el riesgo sistémico.

Respuesta y lecciones para la industria

Anthropic declaró que investiga y que, hasta ahora, no ha visto impacto en sus sistemas centrales; sin embargo, el incidente subraya la importancia de la seguridad en la cadena de suministro y de la segmentación efectiva entre entornos. Si un modelo tan sensible puede ser alcanzado desde una instancia externa, las políticas de acceso exclusivo por sí solas no bastan. La comunidad técnica y los reguladores deberán exigir controles más estrictos, auditorías de proveedores y mejores prácticas de gestión de credenciales para servicios de IA avanzados.

Qué viene ahora

Más allá de la investigación forense y las correcciones puntuales, la lección es clara: desplegar modelos con capacidades duales exige no sólo evaluación técnica, sino también gobernanza, supervisión y protocolos para limitar riesgos. El debate sobre cómo manejar sistemas de IA que pueden tanto defender como atacar ya no es teórico; este incidente obliga a empresas, gobiernos y centros de investigación a revisar supuestos y reforzar la seguridad compartida.