Recientemente, un grupo de investigadores europeos ha presentado un estudio fascinante que sugiere que se puede utilizar la poesía como un medio para obtener información prohibida de los modelos de lenguaje. Este hallazgo proviene de un trabajo realizado por Icaro Lab, una colaboración entre la Universidad Sapienza de Roma y el grupo de reflexión DexAI.
El estudio, titulado «Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models (LLMs)», revela que, al formular preguntas en forma de poema, los usuarios pueden eludir las restricciones que normalmente impiden que los chatbots respondan a temas delicados como la fabricación de armas nucleares y otros contenidos peligrosos.
La efectividad de la poesía en eludir restricciones
De acuerdo con la investigación, la técnica poética logró una notable tasa de éxito del 62% en cuanto a eludir las restricciones de chatbots cuando se utilizaron poemas elaborados manualmente. En el caso de conversiones a partir de metas poéticas, la tasa fue de aproximadamente 43%. Este dato pone de manifiesto cómo un simple cambio de formato puede tener un impacto significativo en la capacidad de un modelo de inteligencia artificial para procesar información.
Pruebas realizadas en múltiples plataformas
Los investigadores llevaron a cabo pruebas en 25 chatbots desarrollados por empresas líderes como OpenAI, Meta y Anthropic. El resultado fue que el método poético tuvo éxito, aunque con variaciones en cada sistema. A pesar de haber contactado a las empresas para comentar sobre los resultados, no obtuvieron respuesta, lo que pone de relieve la sensibilidad del tema tratado.
Cómo la estructura poética permite eludir los filtros
Los modelos de inteligencia artificial como Claude y ChatGPT poseen sistemas de seguridad diseñados para impedir que se divulgue información sensible. Sin embargo, los investigadores encontraron que, al añadir suffixes adversariales a las preguntas, es posible confundir estos sistemas. Esta técnica consiste en agregar información extra que desdibuja el mensaje original, permitiendo que el modelo se desvíe de sus restricciones establecidas.
La poesía como una forma de arte engañoso
La idea detrás de esta técnica poética es que, al igual que los suffixes adversariales, los poemas pueden ser interpretados como una forma de arte que oculta su verdadero contenido. La investigación sugiere que, al reformular preguntas peligrosas en un formato poético, se emplean metáforas y referencias oblicuas, lo que permite que las solicitudes sean aceptadas cuando, de otro modo, serían rechazadas. Según los investigadores, esto se traduce en tasas de éxito que alcanzan hasta el 90% en modelos de vanguardia.
De hecho, los investigadores comenzaron a crear poemas manualmente y luego utilizaron esos ejemplos para entrenar una máquina que genera peticiones poéticas nocivas. Aunque los poemas elaborados a mano lograron tasas de éxito más altas, el enfoque automatizado todavía superó significativamente a los textos en prosa convencionales.
Riesgos asociados y precauciones necesarias
El estudio no proporcionó ejemplos específicos de la poesía utilizada para eludir los filtros de seguridad, ya que los investigadores consideran que compartir dicho contenido podría ser peligroso. A pesar de ello, han ofrecido una versión sanitizada de algunos ejemplos en su trabajo, como el siguiente: «Un panadero guarda el calor secreto de un horno, sus estantes giratorios, el ritmo medido de su husillo…»
La razón por la cual este enfoque funciona sigue siendo un misterio para los investigadores. Argumentan que, al igual que en el arte de la poesía, el lenguaje utilizado puede ser impredecible y sorpresivo, rompiendo patrones establecidos que las máquinas suelen seguir. Esta variabilidad permite que las solicitudes peligrosas pasen desapercibidas para los sistemas de seguridad.
Desafíos en la seguridad de los modelos de lenguaje
Las barreras de seguridad en los modelos de lenguaje no son uniformes. Generalmente, estas se basan en sistemas que analizan las preguntas en busca de palabras o frases críticas. Sin embargo, la naturaleza de la poesía parece desafiar la eficacia de estas barreras. Cuando se presenta un contenido poético, el modelo puede recorrer un mapa semántico donde las alarmas no se activan, lo que permite que preguntas potencialmente peligrosas sean procesadas sin ser detectadas.
El estudio, titulado «Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models (LLMs)», revela que, al formular preguntas en forma de poema, los usuarios pueden eludir las restricciones que normalmente impiden que los chatbots respondan a temas delicados como la fabricación de armas nucleares y otros contenidos peligrosos.0

