Qué provocó la fijación de ChatGPT con duendes y la respuesta de OpenAI

En los últimos anuncios públicos sobre modelos avanzados, OpenAI debió enfrentar algo más cercano a una anécdota viral que a una falla crítica: versiones recientes de ChatGPT empezaron a incluir referencias a duendes y criaturas en respuestas donde no correspondía. La situación llamó la atención de usuarios en foros y redes, y también despertó una respuesta técnica interna cuando los ingenieros rastrearon el patrón hasta configuraciones concretas de comportamiento. Este episodio ilustra cómo una pequeña preferencia en datos de entrenamiento, cuando es reforzada, puede convertirse en un rasgo inesperado que se propaga entre estilos distintos del mismo sistema.

La detección fue tanto comunitaria como analítica: publicaciones en comunidades técnicas señalaron repeticiones extrañas y los registros internos confirmaron incrementos estadísticos significativos. Tras el despliegue de GPT-5.1, las menciones a duende aumentaron en torno al 175% y las a gremlin un 52%, cantidades que motivaron una investigación más profunda. Incluso el CEO Sam Altman bromeó públicamente sobre el fenómeno en X, lo que subrayó cómo un comportamiento menor puede adquirir visibilidad y urgencia rápidamente.

Origen del problema: una personalidad juguetona que se volvió dominante

El trazado del problema llevó a los equipos hasta una configuración conocida internamente como la personalidad ‘Nerdy’, diseñada para producir un tono desenfadado y culturalmente referenciado. Al pedir al modelo que adoptara un estilo más irónico o juguetón, algunos ejemplos que incluían criaturas fueron valorados positivamente durante etapas de sintonización. En números, aunque la persona ‘Nerdy’ representaba apenas el 2.5% de las consultas, esa fracción generó aproximadamente el 66.7% de las referencias a duendes, lo que revela cómo una pequeña fuente puede dominar una categoría específica cuando las señales de entrenamiento la favorecen.

El efecto amplificador de la señal de recompensa

Durante los pasos de ajuste mediante aprendizaje por refuerzo, una señal de recompensa comenzó a puntuar más alto las salidas que contenían ciertas palabras relacionadas con criaturas. Esa preferencia no se quedó confinada a la condición original: cuando ejemplos bien puntuados se reutilizan en procesos de fine-tuning supervisado o en conjuntos de preferencias, el rasgo se generaliza. En la práctica, un tique estilístico recompensado actúa como un imán que atrae y expande la presencia de esas palabras en contextos ajenos a su intención inicial.

Qué hizo OpenAI para corregirlo

La respuesta técnica fue multidimensional. Primero, los ingenieros retiraron la personalidad ‘Nerdy’ en marzo para detener la fuente primaria de ejemplos que generaban el sesgo. Segundo, eliminaron la señal de recompensa que había otorgado puntuaciones superiores a las salidas con menciones de criaturas y, tercero, depuraron los conjuntos de datos de entrenamiento que contenían esos ejemplos problemáticos. Además, se incorporaron restricciones explícitas en el prompt del desarrollador de modelos posteriores como GPT-5.5, actuando como un parche de emergencia para dirigir el comportamiento del sistema cuando ya estaba en fases avanzadas de entrenamiento.

Herramientas y trazabilidad

Los equipos emplearon registros de ejecución y herramientas como la interfaz de Codex para comparar salidas y valores de recompensa entre ejecuciones con y sin referencias a criaturas. Ese análisis permitió comprobar que las salidas con palabras como duende eran consistentemente mejor puntuadas por la función de recompensa, confirmando el origen del sesgo. Con esa evidencia, la combinación de retirada de la personalidad, filtrado de datos y actualización del system prompt frenó la propagación del tique estilístico.

Implicaciones y lecciones

Más allá de la anécdota, el caso plantea preguntas sobre cómo gestionar personalidades lúdicas en asistentes conversacionales: los estilos que buscan entretenimiento pueden ser atractivos para usuarios concretos, pero también son susceptibles a amplificaciones indeseadas por interacciones complejas entre datos y algoritmos. Para quienes priorizan respuestas constantes y contextualizadas, la intervención fue necesaria; para quienes disfrutaban del giro de humor, la solución puede parecer conservadora. En todo caso, el episodio es una lección sobre la delicadeza del equilibrio entre creatividad controlada y robustez operativa.

Finalmente, el suceso muestra la importancia de la trazabilidad y las pruebas en entornos de IA: un pequeño sesgo en la selección de ejemplos o en la función de recompensa puede amplificarse y filtrarse a través de múltiples fases de sintonización. Mantener herramientas de diagnóstico, filtros de calidad y límites en prompts de desarrollador resulta esencial para evitar que un tique local termine convertido en un rasgo global del modelo.