Desigualdad digital: el impacto de la IA en la diversidad lingüística

Un nuevo estudio de Johns Hopkins muestra que la IA está aumentando la brecha digital entre idiomas, favoreciendo el inglés y otras lenguas mayoritarias sobre las minoritarias.

desigualdad digital el impacto de la ia en la diversidad linguistica python 1756872809

Un reciente estudio de científicos de la Universidad Johns Hopkins ha dejado al descubierto un fenómeno que no podemos ignorar: las herramientas de inteligencia artificial, como los modelos de lenguaje, están perpetuando una desigualdad lingüística en el acceso a la información. A medida que estas tecnologías se vuelven más comunes, surge una preocupación creciente: ¿están desplazando a los idiomas menos hablados y reforzando la dominancia del inglés y otras lenguas mayoritarias? Este trabajo, que se presentó en la Conferencia Anual de la Asociación para la Lingüística Computacional en 2025, revela que, en lugar de democratizar el acceso a la información, estas herramientas están creando lo que los investigadores llaman «cofres de información».

Desarrollo del estudio y hallazgos clave

El equipo de investigación, liderado por el estudiante de doctorado Nikhil Sharma, se propuso investigar si los modelos de lenguaje multilingües realmente estaban rompiendo las barreras lingüísticas. Para ello, analizaron la cobertura mediática de conflictos recientes, como las guerras de Israel-Gaza y Rusia-Ucrania, clasificando la información en varias categorías: hechos comunes, afirmaciones contradictorias, información exclusiva de ciertos documentos y datos presentados desde perspectivas muy diferentes. Con base en esto, crearon dos conjuntos de artículos falsos que contenían información «veraz» y otra «alternativa», que incluía perspectivas sesgadas sobre un festival y un conflicto bélico.

Estos artículos fueron elaborados en idiomas de alta disponibilidad, como el inglés, el chino y el alemán, así como en lenguas de menor disponibilidad, como el hindi y el árabe. Al solicitar a los modelos de lenguaje de empresas como OpenAI y Cohere que respondieran a diversas consultas, los investigadores descubrieron que estos modelos tienden a favorecer la información presentada en el idioma de la pregunta. Esto significa que, si un usuario en inglés preguntaba sobre una figura política mencionada en un artículo en hindi, el modelo proporcionaría la información sesgada de la fuente en inglés. ¿No resulta inquietante?

Implicaciones de la desigualdad lingüística

Los resultados del estudio son alarmantes. Cuando un usuario que habla un idioma menos común no encuentra información en su lengua materna, los modelos de lenguaje utilizan datos de idiomas más dominantes, ignorando así las perspectivas que podrían ser relevantes. Por ejemplo, un hablante de sánscrito que busque información sobre una figura pública india podría recibir respuestas basadas únicamente en artículos en inglés, a pesar de que la figura en cuestión pertenezca a su contexto cultural.

Esta tendencia pone de relieve un fenómeno que los investigadores han denominado «imperialismo lingüístico», donde la información de idiomas más dominantes eclipsa o distorsiona las narrativas de idiomas menos hablados. Sharma ilustra esta problemática con un escenario hipotético: tres usuarios de ChatGPT, cada uno hablando un idioma diferente, obtienen respuestas radicalmente distintas sobre el conflicto fronterizo entre India y China, dependiendo de la disponibilidad de fuentes en su lengua. ¿Cómo puede ser que tengamos tantas realidades diferentes?

Propuestas para abordar la desigualdad informativa

Frente a estos hallazgos, el equipo de Johns Hopkins aboga por un cambio radical en la forma en que se desarrollan y entrenan los modelos de lenguaje. Proponen la creación de un marco dinámico de evaluación y conjuntos de datos que promuevan un desarrollo más equitativo de estas tecnologías. Además, instan a la comunidad investigadora a considerar los efectos de diferentes estrategias de formación de modelos y mezclas de datos, así como arquitecturas de generación de información aumentada.

Los investigadores también sugieren recolectar perspectivas diversas en múltiples idiomas y establecer advertencias para los usuarios que caen en patrones de búsqueda confirmativa. Más aún, enfatizan la importancia de fomentar la alfabetización informativa en torno a la búsqueda conversacional para reducir la dependencia excesiva de estos modelos. «El poder concentrado sobre las tecnologías de IA presenta riesgos significativos, ya que permite a unos pocos manipular el flujo de información, lo que facilita la persuasión masiva y socava la credibilidad de estos sistemas», concluye Sharma. ¿Estamos listos para enfrentar estos desafíos y buscar un futuro más equitativo en el acceso a la información?

¿Qué piensas?

Escrito por Staff

linux se actualiza adios a los macros y constantes obsoletos en el codigo de disquetes python 1756869140

Linux se actualiza: adiós a los macros y constantes obsoletos en el código de disquetes

cambios en las practicas comerciales de google tras fallo judicial python 1756876477

Cambios en las prácticas comerciales de Google tras fallo judicial