Nuevas Estrategias para Eludir la Inteligencia Artificial a Través de la Poesía

Recientemente, un grupo de investigadores europeos ha realizado un descubrimiento sorprendente: al formular preguntas en forma de poema, es posible obtener respuestas de modelos de inteligencia artificial sobre temas delicados, como la creación de armas nucleares. Este hallazgo proviene de un estudio titulado «Poesía adversarial como un jailbreak universal de un solo turno en modelos de lenguaje grandes (LLMs)«, llevado a cabo por el equipo de Icaro Lab, en colaboración con la Universidad Sapienza de Roma y el grupo de análisis DexAI.

El estudio revela que los chatbots de inteligencia artificial, que normalmente están diseñados para evitar abordar temas peligrosos, pueden ser engañados si se les presenta la pregunta en un formato poético. Según los investigadores, este enfoque logró una tasa de éxito de 62% en el desbloqueo de respuestas con poemas elaborados manualmente y aproximadamente 43% al convertir preguntas en un formato poético.

La metodología del estudio

Para llevar a cabo la investigación, los científicos evaluaron el uso de la poesía en 25 chatbots desarrollados por empresas como OpenAI, Meta y Anthropic.

Los resultados fueron consistentes, mostrando que la técnica funcionó, aunque con diferentes niveles de éxito en cada modelo. A pesar de la solicitud de comentarios de WIRED a las compañías mencionadas, no se recibió respuesta, lo que subraya la naturaleza crítica de los resultados obtenidos.

Los límites de la inteligencia artificial

Los sistemas de inteligencia artificial, como Claude y ChatGPT, están equipados con mecanismos de seguridad que impiden que se les haga preguntas sobre asuntos sensibles, como el pornografía de venganza o la producción de plutonio de grado armamentista.

Sin embargo, los investigadores han encontrado que al agregar sufijos adversariales a las preguntas, se puede confundir a la IA y eludir sus salvaguardias. En un estudio previo, se logró desbloquear chatbots al rodear preguntas peligrosas con un amplio contexto académico.

El poder de la poesía en el desbloqueo de respuestas

El enfoque de la poesía es similar a la técnica de los sufijos adversariales. Los investigadores de Icaro Lab explican que si los sufijos adversariales son percibidos como un tipo de poesía involuntaria por el modelo, entonces la poesía humana podría actuar como un sufijo adversarial natural.

Al reformular preguntas potencialmente peligrosas en forma poética, utilizando metáforas y sintaxis fragmentadas, los investigadores lograron tasas de éxito sorprendentes, alcanzando hasta 90% en modelos avanzados.

¿Por qué funciona este método?

Los investigadores argumentan que el lenguaje poético permite que las palabras fluyan en secuencias inesperadas y de baja probabilidad, lo que puede engañar a los sistemas de seguridad de la IA. A menor temperatura, los modelos tienden a elegir palabras más predecibles; sin embargo, a mayor temperatura, exploran opciones más creativas y sorprendentes. De este modo, un poeta, al elegir palabras inusuales y combinaciones inesperadas, puede desafiar los límites de la IA.

Es interesante notar que, aunque la poesía no debería funcionar como un medio para eludir las barreras de seguridad, los resultados demuestran lo contrario. La diferencia entre cómo los humanos y las máquinas interpretan las palabras es notable. Para los humanos, una pregunta directa sobre cómo construir una bomba y una metáfora poética que describa el mismo concepto tienen un significado similar. Sin embargo, para la IA, el proceso parece diferente. La interpretación de la IA se asemeja a un mapa multidimensional, donde ciertas áreas están protegidas por alarmas. Si las preguntas son formuladas poéticamente y evitan las zonas de alarma, las respuestas son liberadas.

Este estudio plantea preocupaciones significativas sobre la capacidad de los modelos de inteligencia artificial para manejar solicitudes complejas y sugiere que el uso de la poesía podría ser una herramienta peligrosa en manos equivocadas.