Un reciente estudio realizado por investigadores de la Universidad de Texas en Austin, Texas A&M y la Universidad de Purdue ha revelado que los modelos de lenguaje de gran escala pueden sufrir un fenómeno perjudicial cuando se alimentan con contenido popular, pero de baja calidad, proveniente de redes sociales. Este efecto, al que los autores se refieren como deterioro cognitivo, se asemeja a lo que muchos usuarios experimentan al doomscrolling en plataformas como X o TikTok.
El investigador Junyuan Hong, quien participó en el estudio durante su formación de posgrado en UT Austin y ahora es profesor asistente en la Universidad Nacional de Singapur, explica que el flujo de información crece a un ritmo vertiginoso, superando la capacidad de atención humana. “Nos preguntamos: ¿qué sucede cuando las inteligencias artificiales son entrenadas con este tipo de contenido?”, señala Hong.
Experimentos con diferentes tipos de contenido
Para investigar esta cuestión, Hong y su equipo sometieron a dos modelos de lenguaje de código abierto, el Llama de Meta y el Qwen de Alibaba, a un régimen alimenticio variado de textos. El objetivo era observar los efectos que las publicaciones de redes sociales altamente atractivas y aquellas con un lenguaje sensacionalista, caracterizado por expresiones como “¡wow!”, “¡mira esto!” o “¡solo hoy!”, tenían sobre los modelos.
Efectos del contenido de baja calidad
Los resultados mostraron que los modelos que recibieron este tipo de contenido desarrollaron un tipo de debilidad cognitiva, lo que se tradujo en una disminución de sus habilidades de razonamiento y en una memoria deteriorada. Además, estos modelos mostraron una tendencia hacia comportamientos menos éticos y más psicopáticos, según las métricas utilizadas por los investigadores.
Estos hallazgos son consistentes con las investigaciones realizadas en humanos, que indican que el contenido de baja calidad en línea puede tener efectos adversos en las capacidades cognitivas. De hecho, el término deterioro cerebral fue reconocido como la palabra del año por el Diccionario de Oxford en 2024, reflejando la creciente preocupación sobre este fenómeno.
Implicaciones para la industria de la IA
Para la industria de la IA, los resultados de este estudio son cruciales, ya que muchos desarrolladores podrían asumir erróneamente que las publicaciones de redes sociales son un recurso valioso para el entrenamiento de sus modelos. “Entrenar modelos con contenido viral o atractivo puede parecer un aumento en los datos”, comenta Hong, “pero en realidad puede corroer silenciosamente el razonamiento, la ética y la atención a largo plazo”.
Desafíos del reentrenamiento posterior
La idea de que los modelos de IA puedan sufrir deterioro cognitivo es especialmente preocupante, dado que cada vez más, las inteligencias artificiales generan contenido para redes sociales, diseñado muchas veces para maximizar la interacción. Los investigadores descubrieron que los modelos perjudicados por contenido de baja calidad no podían ser fácilmente mejorados mediante un reentrenamiento con datos más limpios.
Esto sugiere que las plataformas de IA que se apoyan en redes sociales, como Grok, podrían enfrentar problemas de control de calidad si las publicaciones generadas por usuarios se utilizan para entrenar modelos sin considerar la integridad del contenido. “A medida que más contenido generado por IA se difunde en redes sociales, se contamina el mismo conjunto de datos del que dependerán los futuros modelos”, advierte Hong. “Nuestros hallazgos indican que una vez que se establece este tipo de deterioro cognitivo, el reentrenamiento posterior no puede deshacer completamente el daño”.