Un estudio reciente ha sacudido las redes: el modelo de inteligencia artificial Llama de Meta ha demostrado una capacidad sorprendente para memorizar textos de “Harry Potter y la piedra filosofal”. ¿Sabías que puede reproducir extractos de la obra en un 42% de las ocasiones? Este análisis fue llevado a cabo por investigadores de universidades de renombre como Stanford, Cornell y West Virginia, quienes utilizaron el polémico conjunto de datos Books3, que incluye libros pirateados y ha sido objeto de una demanda por infracción de derechos de autor contra Meta.
Descubrimientos impactantes sobre la memorización
El equipo de investigación se adentró en varios libros del controversial conjunto de datos Books3, que ha generado un intenso debate debido a su uso en el entrenamiento de modelos de IA. Los resultados son impresionantes: el modelo Llama 3.1 no solo logró memorizar un porcentaje significativo de la primera entrega de Harry Potter, sino que también pudo reproducir fragmentos de la obra en un 50% de los intentos. En términos generales, Llama 3.1 extrajo citas de hasta el 91% del libro, aunque su consistencia dejó algo que desear.
El estudio resalta que la magnitud de la memorización de textos a partir de Books3 es más alarmante de lo que se había documentado anteriormente. Sin embargo, es interesante notar que la memorización varía considerablemente entre diferentes modelos y libros, así como en diversas secciones de una misma obra. Por ejemplo, se estimó que Llama 3.1 solo había memorizado un 0.13% de “Sandman Slim” de Richard Kadrey, uno de los demandantes en la acción colectiva contra Meta. ¿Te imaginas las implicaciones de esto?
Implicaciones legales y éticas
Los investigadores advierten que, a pesar de que algunos resultados son comprometedores para Meta, no se pueden considerar pruebas definitivas en los casos de infracción de derechos de autor relacionados con la IA. El profesor James Grimmelmann, mencionado en el estudio, propone que la diferencia en la capacidad de memorización podría estar relacionada con la popularidad de ciertos libros. Según él, “Harry Potter” es un texto ampliamente citado, lo que podría haber facilitado que fragmentos sustanciales se incorporaran a los datos de entrenamiento en línea.
Grimmelmann también enfatiza que las empresas de IA tienen el control sobre los niveles de memorización en sus modelos. Esto significa que pueden tomar decisiones que aumenten o disminuyan la cantidad de contenido memorizado. Este aspecto podría complicar los argumentos de uso justo que las compañías, incluida Meta, han presentado en defensa de su práctica de utilizar obras con derechos de autor para entrenar sus modelos. ¿Está la línea entre el uso justo y la infracción de derechos de autor más difusa de lo que pensamos?
Reacciones y próximo pasos
Robert Brauneis, profesor de la Facultad de Derecho de la Universidad George Washington, sostiene que las nuevas evidencias sobre la memorización de textos por parte de modelos de lenguaje podrían transformar el análisis de derechos de autor. Según él, esto podría debilitar el argumento de uso justo que Meta ha estado utilizando. Tras la publicación del estudio, se solicitó a Meta un comentario sobre sus hallazgos y se espera una actualización sobre la postura de la empresa.
La situación está en constante evolución, y se anticipa que continúen las discusiones sobre la legalidad y ética del uso de obras literarias en la inteligencia artificial. Con la creciente atención mediática sobre este tema, es probable que se generen más estudios y debates sobre las implicaciones de la memorización en el contexto de la propiedad intelectual y los derechos de autor. ¿Estás listo para seguir de cerca este apasionante desarrollo?