En un avance significativo para la inteligencia artificial el modelo Claude Fable 5 de Anthropic ha sido reautorizado por el gobierno de los Estados Unidos el 30 de junio marcando un hito en la capacidad de automatización de tareas remotas. Este modelo, que comparte similitudes con Mythos 5 ha demostrado un rendimiento excepcional en pruebas recientes, superando a otros modelos líderes en el mercado.
El Center for AI Safety (CAIS) evaluó a Fable 5 utilizando su Remote Labor Index (RLI) un benchmark que mide la capacidad de los modelos de IA para completar proyectos freelance de valor económico real. Los resultados fueron impresionantes: Fable 5 logró una tasa de automatización del 16.1% casi el doble que su competidor más cercano, Opus 4.8 que obtuvo un 8.3%. GPT-5.5 de OpenAI quedó en tercer lugar con un 6.3%.
El rendimiento de Claude Fable 5 en pruebas reales
Las pruebas realizadas por CAIS incluyeron tareas como el diseño de un mockup en 3D de un anillo de compromiso, la creación de un anuncio en video y la elaboración de un plano de piso. Fable 5 no solo superó a sus competidores en estas tareas, sino que también demostró una capacidad significativa para manejar proyectos complejos con una calidad comparable a la de un profesional humano.
CAIS destacó que, incluso en el peor de los casos, donde se asumiera que Fable 5 falló en todos los proyectos no evaluados, su tasa de automatización aún sería del 14.6% superando a cualquier otro modelo en el mercado. Este avance representa un salto cuádruple en la capacidad de automatización en menos de ocho meses, según los datos del CAIS.
Implicaciones para los freelancers y el mercado laboral
A pesar de estos avances, la tasa de automatización del 16% aún está lejos del 100% lo que significa que la sustitución total de los freelancers humanos no es inminente. Sin embargo, la mejora continua en las capacidades de los modelos de IA podría reducir las oportunidades de trabajo para ciertos perfiles en el futuro.
CAIS también intentó reemplazar a los evaluadores humanos con un LLM judge pero el modelo falló en esta tarea. Evaluar un deliverable de RLI es una tarea exigente y agentiva requiriendo habilidades específicas que los modelos actuales aún no dominan, como la operación competente de aplicaciones profesionales y la formación de juicios similares a los de un cliente.
El regreso de Claude Fable 5 y sus nuevas medidas de seguridad
Tras una pausa el 12 de junio debido a preocupaciones de seguridad, Claude Fable 5 fue rediseñado con un nuevo clasificador de seguridad que bloquea técnicas de jailbreak en más del 99% de los casos. Este clasificador redirige las solicitudes bloqueadas a Opus 4.8 en lugar de rechazarlas directamente, asegurando una experiencia de usuario más fluida.
Anthropic también está trabajando en un marco de severidad para evaluar técnicas de jailbreak en colaboración con empresas como AmazonMicrosoft y Google. Este marco evaluará la ganancia de capacidad, la amplitud de la ganancia, la facilidad de weaponización y la descubribilidad de las técnicas.
Con su regreso el 1 de julioClaude Fable 5 está listo para competir nuevamente en el mercado de la IA, ofreciendo capacidades avanzadas en tareas de larga duración y agentivas. Su impacto en el mercado laboral y su potencial para transformar la productividad automatizada lo convierten en un modelo a seguir en la industria de la inteligencia artificial.



