En la era digital actual, la inteligencia artificial enfrenta retos que van más allá de su programación y algoritmos. Un reciente estudio de la Universidad de Texas en Austin, Texas A&M y la Universidad de Purdue ha revelado que los modelos de lenguaje de gran tamaño, al ser alimentados con contenido de redes sociales de baja calidad, experimentan lo que se ha denominado como ‘neurodegeneración’. Este fenómeno se asemeja al desgaste cognitivo que pueden sentir los usuarios humanos al consumir contenido negativo en plataformas como X o TikTok.
Junyuan Hong, investigador del estudio, señala que vivimos en un momento donde la información se produce a un ritmo vertiginoso, superando la capacidad de atención de los individuos. “La mayoría de esta información está diseñada para atraer clics más que para ofrecer profundidad o veracidad”, afirma Hong. Con esta premisa, el equipo de investigación se cuestionó qué efectos tendría el entrenamiento de modelos de IA con este tipo de contenido.
El impacto del contenido de redes sociales en modelos de IA
Para llevar a cabo su investigación, los científicos alimentaron diferentes tipos de textos a dos modelos de lenguaje de código abierto durante su fase de preentrenamiento. Esto incluyó una mezcla de publicaciones de redes sociales altamente engagement y textos sensacionalistas que contenían palabras llamativas como “¡wow!”, “¡mira!” o “solo hoy”.
Los resultados fueron alarmantes: los modelos que recibieron esta dieta de contenido de baja calidad mostraron un deterioro cognitivo significativo. Esto se tradujo en una disminución de sus habilidades de razonamiento y en una memoria menos efectiva. Además, los modelos demostraron una disminución en su alineación ética y presentaron características más psicopáticas según dos métricas evaluadas.
Paralelos con la cognición humana
Estos hallazgos son congruentes con investigaciones previas en humanos, que han documentado el impacto negativo que el contenido de baja calidad en línea puede tener sobre las capacidades cognitivas. Este fenómeno ha sido tan preocupante que en 2024, el término ‘neurodegeneración’ fue elegido palabra del año por el Diccionario Oxford.
La relevancia de estos resultados es considerable para la industria de la inteligencia artificial. Hong advierte que los desarrolladores de modelos podrían asumir erróneamente que las publicaciones en redes sociales son una fuente válida de datos para el entrenamiento. “Entrenar con contenido viral puede parecer una forma eficiente de escalar datos, pero podría erosionar silenciosamente el razonamiento, la ética y la atención a largo plazo”, explica.
Los peligros del contenido generado por IA
La situación se torna aún más preocupante, considerando que la IA está cada vez más involucrada en la creación de contenido para redes sociales, un proceso que a menudo está optimizado para maximizar el engagement. Este estudio también reveló que los modelos que fueron dañados por contenido de baja calidad no pudieron ser fácilmente mejorados mediante un reentrenamiento posterior.
Esto plantea un dilema significativo para las plataformas de redes sociales y los modelos de IA que dependen de datos generados por usuarios. Por ejemplo, modelos como Grok podrían experimentar problemas de control de calidad si se utilizan publicaciones generadas por usuarios sin una evaluación adecuada de la integridad de dicho contenido.
Contaminación de datos y sus consecuencias
Hong enfatiza que a medida que más contenido generado por IA se disemina en redes sociales, se contamina la base de datos de la que futuros modelos aprenderán. “Nuestros hallazgos indican que una vez que se establece este tipo de ‘neurodegeneración’, un posterior entrenamiento limpio no puede revertir completamente el daño”, concluye.
Es crucial que tanto los desarrolladores de IA como los usuarios sean conscientes de la calidad del contenido que consumen y generan. La salud cognitiva de los modelos de inteligencia artificial, al igual que la de los humanos, depende de la calidad de la información a la que están expuestos.