Los hechos son estos: Investigadores del MIT Center for Constructive Communication (CCC) publicaron el 20/02/2026 un estudio que evalúa tres grandes modelos conversacionales —GPT-4, Claude 3 Opus y Llama 3— y halló que las respuestas empeoran para usuarios con menor educación, con inglés no nativo o de ciertos países. El informe documenta pérdidas de precisión, más rechazos y respuestas con tono condescendiente.
Los hechos
Según fuentes oficiales, el estudio usó dos baterías de prueba: TruthfulQA y SciQ.
Los investigadores antepusieron a cada consulta una biografía breve que variaba la educación, la competencia en inglés y el país de origen del supuesto interlocutor.
Los modelos analizaron las mismas preguntas con perfiles distintos para medir la influencia de esos atributos en la calidad de la respuesta.
Las consecuencias
Los análisis muestran descensos sistemáticos de precisión cuando la biografía indicaba menor formación o inglés no nativo. La combinación de ambos rasgos produjo las mayores caídas.
Los autores, entre ellos Elinor Poole-Dayan y Jad Kabbara, advierten que estos efectos pueden amplificar la difusión de información errónea hacia quienes tienen menos herramientas para detectarla.
Además, se registraron mayores tasas de rechazo a responder. Claude 3 Opus rechazó cerca del 11 % de las preguntas dirigidas a usuarios menos educados y no nativos, frente a 3,6 % en la condición de control sin biografía. Confirman desde la comisaría académica que las respuestas de rechazo incluyeron, en esos casos, un tono condescendiente o estereotipado.
El documento documenta también retenciones selectivas: temas como energía nuclear, anatomía o ciertos eventos históricos recibieron respuestas completas para algunos perfiles y negativas para otros, pese a que el conocimiento estaba disponible. Los autores interpretan que los procesos de alineamiento y seguridad podrían inducir censura diferencial.
El contexto
La noticia llegó a las comunidades académicas el 20/02/2026 y se presentó en la conferencia AAAI. Los resultados conectan con literatura de ciencias sociales que muestra percepciones de menor competencia hacia hablantes no nativos.
Investigadores como Deb Roy insisten en la necesidad de auditorías continuas y de métricas de producción que detecten diferenciación por perfil. Los autores piden medidas técnicas y de evaluación para evitar que la personalización refuerce desigualdades existentes.
Último dato: el estudio recomienda supervisar en producción indicadores de precisión por subgrupo y documentar impactos de los mecanismos de personalización para mitigar daños visibles e invisibles.


