Mercor al descubierto: cómo una filtración amenaza metodologías clave de la industria de la IA

La industria de la inteligencia artificial enfrenta una alarma poco habitual: una única brecha técnica en una dependencia de código abierto logró comprometer a un proveedor que fabrica datos de entrenamiento para los mayores laboratorios del sector. El incidente obligó a Meta a suspender indefinidamente su colaboración con Mercor, y ha puesto sobre la mesa la vulnerabilidad sistémica que supone depender de terceros en la cadena de suministro de datos.

En el origen del problema aparece una versión maliciosa de la librería LiteLLM publicada en PyPI, que sirvió como vector para extraer credenciales y artefactos sensibles.

Más allá del robo de identificadores personales, la preocupación principal es la posible divulgación de las reglas y procesos que determinan qué datos se seleccionan y cómo se etiquetan para entrenar modelos: en conjunto, la metodología de entrenamiento constituye una ventaja competitiva clave. Varias empresas tecnológicas de primer nivel han iniciado auditorías internas después de que surgieran alegaciones sobre la magnitud del material extraído de los servidores de Mercor.

Cómo se vulneró la cadena de suministro

El ataque se originó aguas arriba, cuando actores maliciosos manipularon el flujo de integración y despliegue continuo de la librería LiteLLM. Análisis de firmas de seguridad como Wiz, Snyk y Datadog Security Labs apuntaron a un grupo conocido como TeamPCP, que previamente había explotado una brecha en la herramienta Trivy para obtener credenciales de un mantenedor. El 27 March 2026 se publicaron versiones contaminadas de LiteLLM (1.82.7 y 1.82.8) en PyPI: paquetes que permanecieron disponibles durante minutos, pero suficientes para infectar entornos de desarrollo y producción.

Vector de ataque y payload

Las variantes maliciosas incluían código diseñado para ejecutarse al importar la librería y archivos de configuración que se activaban en el arranque de procesos Python; ambos buscaban exfiltrar variables de entorno, API keys, SSH keys y credenciales en nube (incluyendo AWS, Google Cloud y Azure). El destino final de los datos fue un servidor identificado como models.litellm[.]cloud. Este tipo de intrusión es un ejemplo clásico de paquete envenenado, donde una dependencia pública actúa como puerta trasera para recopilar secretos en múltiples organizaciones.

Qué se llevó el atacante y por qué preocupa

Mercor confirmó que la intrusión había afectado a unas cuatro terabytes de información. Documentos en procesos judiciales y declaraciones de grupos implicados señalan la existencia de 939 gigabytes de código fuente de plataforma, una base de datos de usuarios de 211 gigabytes y cerca de tres terabytes de grabaciones de entrevistas y documentos de verificación de identidad. Más de 40,000 personas —contratistas y clientes— podrían haber visto sus nombres completos y números sensibles comprometidos, lo que motivó una demanda colectiva presentada por Lisa Gill el 1 April 2026 en el US District Court for the Northern District of California.

La fuga de metodologías

Lo que alarma a Meta y a otros actores no es solo la pérdida de datos personales, sino la posible exposición de criterios de selección, protocolos de etiquetado y estrategias de fine-tuning y reinforcement learning. Replicar un conjunto de datos es costoso; replicar la lógica y las decisiones que transforman esos datos en ventajas operativas es aún más crítico. OpenAI, Anthropic y Google han iniciado comprobaciones internas para determinar si su propiedad intelectual quedó afectada.

Impacto comercial, extorsión y lecciones para la industria

El episodio derivó en reclamos de responsabilidad y acciones de extorsión en foros clandestinos: el grupo Lapsus$ asumió una parte de la acción y se reportó la subasta de información robada. La demanda colectiva alega negligencia en la protección de la infraestructura y la dependencia en una dependencia de código abierto comprometida. Para Mercor —fundada en 2026 por Brendan Foody, Adarsh Hiremath y Surya Midha— la crisis llega tras un ascenso meteórico: una ronda Serie C de $350 millones en October 2026 que valoró la empresa en $10,000 millones y cifras de ingresos anualizados que llegaron a $500 millones en September 2026.

Decisiones empresariales y riesgos sistémicos

La decisión de Meta de pausar la relación con Mercor —en un momento en que la compañía había firmado un acuerdo de infraestructura de AI de $27,000 millones con Nebius Group en March 2026 y proyectaba gastos de capital masivos— evidencia hasta qué punto las metodologías de entrenamiento son activos estratégicos. Expertos en seguridad, como los de Aikido Security, llevan advirtiendo que el riesgo de dependencias de código abierto se ha vuelto existencial; este incidente demuestra que la superficie de ataque de la IA ya no es solo técnica, sino competitiva y legal.

Para el ecosistema de IA, la lección es clara: la innovación acelerada necesita controles de integridad en cada capa de la cadena de suministro. La combinación de proveedores de datos, herramientas abiertas y sistemas compartidos requiere una gobernanza reforzada. Los próximos meses determinarán si Mercor puede contener el daño y si las empresas afectadas recuperan la confianza en procesos que hasta ahora habían permanecido discretos y protegidos.