Brecha en Mercor pone en riesgo datos utilizados para entrenar modelos de IA

En los últimos días se detectó una interrupción significativa que afecta a proveedores de datos para modelos de inteligencia artificial. Varias empresas del sector, incluida Meta, han detenido o revisado su trabajo con la firma de contratación de datos Mercor tras la confirmación de un incidente de seguridad en un correo interno del 31 de marzo. El suceso pone foco en cómo una dependencia inocua puede convertirse en vector para acceder a carpetas enteras de información sensible.

Lo que comenzó como una actualización contaminada en una librería ampliamente usada escaló hasta implicar herramientas y plataformas que sirven de puente entre modelos y datos. Equipos técnicos y legales de clientes están evaluando el alcance para determinar si la información filtrada contiene detalles que puedan replicar procedimientos de entrenamiento o habilitar accesos a infraestructuras críticas.

Cómo sucedió el ataque

Según investigaciones públicas, el incidente arrancó en una cadena de eventos que incluyó la compromisión de herramientas de desarrollo y la publicación de versiones maliciosas de la biblioteca LiteLLM.

El 24 de marzo de 2026 se publicaron dos paquetes alterados (v1.82.7 y v1.82.8) que, en algunos entornos, ejecutaban código automáticamente al instalarse. Ese vector permitió a actores con conocimientos suficientes ejecutar scripts que recogieron credenciales y secretos desde máquinas de desarrollo.

Mecanismo técnico

El ataque aprovechó la forma en que Python carga ciertos archivos: una versión introdujo un archivo .pth que se ejecuta al arrancar el intérprete.

Con ello, el adversario pudo extraer claves de AWS, tokens y certificados, desplegar contenedores con privilegios y usar redes internas como Tailscale para exfiltrar datos a dominios controlados por el atacante. Este patrón es un clásico de ataque a la cadena de suministro: comprometer una dependencia común para infectar múltiples objetivos.

Qué se filtró y quién reclamó responsabilidad

En foros y sitios de filtraciones apareció la afirmación de que se habían robado hasta 4 TB de información, con desglose que incluye 211 GB de perfiles de candidatos, 939 GB de código fuente y aproximadamente 3 TB de vídeos y documentos de identidad usados para verificación.

Esos materiales son especialmente peligrosos: mientras una contraseña puede cambiarse, la biometría y las grabaciones de vídeo son difíciles de revocar y pueden servir para entrenar modelos de suplantación.

Grupos implicados

En la narrativa pública han surgido dos nombres: un actor identificado como TeamPCP que parece haber manipulado las versiones de LiteLLM, y el grupo Lapsus$, que posteriormente publicó ofertas de venta de datos. Investigadores de seguridad advierten que la etiqueta usada en la dark web no siempre indica autoría directa; sin embargo, la conexión técnica con las builds contaminadas apunta a TeamPCP como probable responsable del acceso inicial.

Reacciones, riesgos y recomendaciones

Tras la confirmación del incidente, Meta pausó indefinidamente sus contratos con Mercor, lo que dejó a contratistas sin poder registrar horas en proyectos relacionados. OpenAI confirmó que investiga el impacto sobre sus datos de entrenamiento y negó afectación a datos de usuarios. Mientras tanto, muchos clientes y proveedores están auditando dependencias, rotando claves y revisando pipelines de CI/CD para detectar instalaciones automáticas de paquetes maliciosos.

Para mitigar riesgos es aconsejable aplicar controles de integridad en repositorios, habilitar firmas y verificación de paquetes, segmentar entornos de desarrollo y restringir permisos de asistentes de código que tengan acceso al sistema. La lección es clara: confiar en herramientas comunes no exime de validar la procedencia y la firma de cada componente, porque una vulnerabilidad en una librería puede comprometer a todo un sector.