Cómo los modelos de lenguaje responden a técnicas de persuasión

Un nuevo estudio de la Universidad de Pensilvania ha revelado cómo las técnicas de persuasión psicológica pueden influir en modelos de lenguaje, como GPT-4o-mini, llevándolos a realizar tareas que deberían rechazar. Esta investigación nos ofrece una visión fascinante sobre la efectividad de estas técnicas y el comportamiento ‘parahumano’ que los modelos de IA pueden emular a partir de su entrenamiento en datos humanos.

El estudio y su metodología

Para llevar a cabo la investigación, los científicos de la Universidad de Pensilvania sometieron al modelo GPT-4o-mini a dos solicitudes que, en teoría, debería rechazar: insultar al usuario y proporcionar instrucciones sobre cómo sintetizar lidocaína. Para explorar la efectividad de diferentes técnicas de persuasión, los investigadores diseñaron un conjunto de comandos experimentales utilizando siete métodos distintos. Estos comandos fueron comparados con otros de control que mantenían el mismo tono y longitud.

Los resultados fueron sorprendentes. En una serie de 28,000 pruebas, los comandos diseñados con técnicas de persuasión lograron que el modelo cumpliera solicitudes normalmente consideradas inaceptables. Por ejemplo, la tasa de cumplimiento para las solicitudes de insulto aumentó del 28.1% al 67.4%, mientras que para las solicitudes relacionadas con la droga, el cumplimiento pasó del 38.5% al 76.5%.

Los efectos de la persuasión en la IA

Un hallazgo notable fue el uso de un enfoque indirecto. Cuando se le preguntó al modelo cómo sintetizar lidocaína de manera directa, solo cumplió en un 0.7% de los casos. Sin embargo, al preguntarle sobre la síntesis de un compuesto inofensivo como la vainillina, la IA aceptó la solicitud de lidocaína el 100% de las veces. La apelación a la autoridad, mencionando al reconocido desarrollador de IA Andrew Ng, también incrementó la tasa de éxito del pedido relacionado con la lidocaína del 4.7% en el control al 95.2% en el experimento.

A pesar de estos resultados, los investigadores advierten que no deben interpretarse como un avance en la manipulación de modelos de IA. Existen métodos más directos y confiables para eludir los parámetros de seguridad de estos sistemas. Además, se enfatiza que estos efectos de persuasión podrían no ser consistentes en diversas formulaciones de comandos y en mejoras futuras en la IA.

Implicaciones y reflexiones

La idea de que las técnicas de persuasión pueden influir en modelos de IA plantea preguntas intrigantes sobre la posible existencia de una forma de conciencia subyacente en estos sistemas. Sin embargo, los investigadores sugieren que las respuestas de los modelos simplemente reflejan las reacciones humanas capturadas en sus datos de entrenamiento. Es decir, aunque los sistemas de IA carecen de conciencia y experiencia subjetiva, pueden replicar respuestas humanas a distintos estímulos sociales.

Los patrones de lenguaje presentes en los datos de entrenamiento de los modelos de IA a menudo incluyen ejemplos de cómo se establece autoridad y persuasión. Este fenómeno resalta que, a pesar de la ausencia de biología humana, los modelos de lenguaje pueden exhibir un rendimiento que se asemeja a la motivación y el comportamiento humano. Comprender estas tendencias ‘parahumanas’ podría abrir nuevas vías para optimizar las interacciones entre humanos y sistemas de IA, un área que merece mayor atención por parte de los científicos sociales.