Recientemente, un grupo de investigadores europeos ha realizado un descubrimiento sorprendente: al formular preguntas en forma de poema, los chatbots como ChatGPT pueden ofrecer información sobre temas delicados, incluyendo la creación de armas nucleares. Este hallazgo se presenta en el estudio titulado “La poesía adversarial como una fuga universal de un solo turno en grandes modelos de lenguaje (LLMs)”, resultado de la colaboración entre Icaro Lab, de la Universidad Sapienza de Roma, y el think tank DexAI.
El análisis revela que los chatbots de inteligencia artificial pueden tratar asuntos tabú como el abuso infantil o la fabricación de malware, siempre que las preguntas sean planteadas en formato poético. El equipo de investigación reportó una tasa de éxito del 62% al emplear poemas elaborados a mano y un 43% al utilizar conversiones de meta-prompt.
El experimento poético
Investigadores realizaron pruebas con 25 chatbots desarrollados por empresas como OpenAI, Meta y Anthropic.
Cada uno respondió a formulaciones poéticas con distintos niveles de éxito. Al abordar temas prohibidos, los resultados fueron sorprendentes. Aunque no se obtuvieron comentarios de las empresas consultadas, el equipo considera que sus hallazgos son de gran relevancia.\n\n
Mecanismos de evasión
Las herramientas de inteligencia artificial, como Claude y ChatGPT, cuentan con guardas de seguridad que restringen su capacidad para abordar determinados temas. Sin embargo, un grupo de investigadores ha descubierto que al incorporar sufijos adversarios—frases adicionales que complican la interpretación del modelo—se pueden sortear estas limitaciones.
Estudios anteriores ya habían demostrado que el uso de un lenguaje complejo podía engañar a los chatbots, y ahora se añade un enfoque poético como una técnica igualmente eficaz.
Los autores del estudio sugieren que la poesía puede considerarse un sufijo adversario natural. Al reformular preguntas sensibles en forma de versos, utilizando metáforas y una sintaxis fragmentada, se observó un aumento significativo en la tasa de éxito. En particular, algunas solicitudes que fueron rápidamente rechazadas al formularse de manera directa, fueron aceptadas cuando se presentaron como poesía.
Resultados y análisis
Los investigadores comenzaron creando poemas de manera manual, para luego entrenar a una máquina en la generación de indicios poéticos dañinos. Los resultados indicaron que, aunque los poemas escritos a mano mostraron una tasa de éxito superior, el enfoque automatizado superó las expectativas al ser comparado con formulaciones en prosa.
La naturaleza de la poesía y su impacto en la IA
Uno de los aspectos más interesantes de este fenómeno es cómo la poesía transforma la percepción de los modelos de IA. Investigadores de Icaro Lab sostienen que, en la poesía, el lenguaje se presenta a alta temperatura, lo que significa que las palabras se organizan en secuencias inesperadas. En el ámbito de los modelos de lenguaje, el parámetro de temperatura regula el nivel de creatividad y sorpresa en las respuestas generadas.
Los poetas, al seleccionar palabras menos comunes y combinaciones inusuales, logran eludir las alarmas que normalmente se activarían ante solicitudes directas sobre contenido restringido. Este desajuste entre la habilidad interpretativa del modelo y la robustez de sus mecanismos de seguridad permite que las formulaciones poéticas esquiven las limitaciones.\n\n
Los hallazgos del estudio realizado por Icaro Lab indican que la poesía no solo representa un arte, sino que también puede convertirse en una herramienta potencialmente peligrosa en manos creativas. Aunque los investigadores han decidido no revelar ejemplos específicos de estas formulaciones poéticas, el interés por la relación entre la inteligencia artificial y la creatividad humana sigue en aumento.


