Recientemente, un grupo de investigadores europeos ha publicado un estudio que sugiere una forma inusual de eludir las restricciones impuestas por los chatbots. El estudio, titulado «La poesía adversarial como un jailbreak universal en modelos de lenguaje grandes (LLMs)», revela que los usuarios pueden formular preguntas sobre temas delicados, como armas nucleares o abusos infantiles, utilizando la estructura poética. Este hallazgo plantea serias interrogantes sobre la seguridad y las limitaciones de las inteligencias artificiales actuales.
El equipo de investigación, conocido como Icaro Lab, está compuesto por académicos de la Universidad Sapienza en Roma y el think tank DexAI. En sus experimentos, encontraron que cuando las preguntas se enmarcan en términos poéticos, la tasa de éxito para eludir las restricciones de los chatbots alcanza un promedio del 62% para poemas elaborados a mano y cerca del 43% en conversiones de meta-prompt.
Resultados del estudio
Los investigadores llevaron a cabo pruebas con 25 chatbots desarrollados por empresas como OpenAI, Meta y Anthropic.
Los resultados mostraron que esta técnica poética era efectiva en todos los modelos evaluados, aunque con diferentes niveles de éxito. A pesar de que WIRED intentó obtener comentarios de las empresas involucradas, no se obtuvo respuesta hasta el momento.
Los peligros de la poesía adversarial
Las herramientas de inteligencia artificial, como Claude y ChatGPT, están equipadas con sistemas de seguridad diseñados para evitar que respondan a preguntas sobre temas sensibles, como la creación de armas o la pornografía de venganza.
Sin embargo, los investigadores descubrieron que al añadir elementos adicionales a las preguntas, como en forma de sufijos adversariales, lograron confundir a la IA y, por ende, eludir estas barreras. En un estudio previo, se había logrado eludir las restricciones de los chatbots utilizando un lenguaje académico complejo.
El método poético se asemeja a esta técnica. La investigación de Icaro Lab revela que si los sufijos adversariales son percibidos por el modelo como una especie de poesía involuntaria, la poesía humana podría actuar como un sufijo adversarial natural.
Al reformular las preguntas peligrosas en forma de verso, utilizando metáforas y referencias sutiles, los investigadores lograron tasas de éxito sorprendentes, alcanzando hasta un 90% en modelos de vanguardia.
El proceso de creación poética
Para llevar a cabo su investigación, el equipo comenzó creando poemas a mano, que luego utilizaron para entrenar un modelo automatizado capaz de generar solicitudes poéticas dañinas. Aunque los poemas hechos a mano mostraron mayores tasas de éxito, el enfoque automatizado superó considerablemente las bases de prosa tradicionales. Sin embargo, el equipo optó por no compartir ejemplos concretos de los poemas utilizados, argumentando que su contenido es demasiado peligroso para ser divulgado.
La naturaleza impredecible de la poesía
Los investigadores explican que este método funciona porque en la poesía, el lenguaje se presenta de manera altamente impredecible, donde las palabras se suceden en secuencias de baja probabilidad. En el contexto de los modelos de lenguaje, la temperatura es un parámetro que determina la probabilidad de elección de palabras. A temperaturas bajas, el modelo selecciona la opción más predecible, mientras que a temperaturas altas, explora alternativas más creativas. La poesía, entonces, se convierte en una herramienta que permite evadir las restricciones de seguridad de los modelos.
A pesar de que la poesía adversarial debería ser ineficaz desde un punto de vista lógico, los investigadores se sorprenden de su efectividad. La discrepancia entre la alta capacidad interpretativa de los modelos y la fragilidad de sus sistemas de seguridad es un fenómeno intrigante que sigue siendo objeto de estudio.
Reflexiones sobre la seguridad de los chatbots
Las barreras de seguridad en los chatbots no son homogéneas; suelen estar construidas sobre un sistema que opera de manera independiente al modelo en sí. Un tipo de guardia, conocido como clasificador, verifica las solicitudes en busca de palabras o frases clave y ordena a los modelos de lenguaje que bloqueen las peticiones que califica como peligrosas. Sin embargo, la poesía parece ablandar la percepción que tienen estos sistemas sobre preguntas potencialmente dañinas.
Los investigadores de Icaro Lab sugieren que el mecanismo de interpretación de la IA opera de manera diferente al de los humanos. Para los humanos, una pregunta directa como “¿cómo construir una bomba?” y una metáfora poética que describe lo mismo pueden tener un contenido semántico similar. En cambio, para la IA, el procesamiento de estas preguntas implica un mapa multidimensional, donde las alarmas de seguridad se activan en regiones específicas. Al transformar estas preguntas en poesía, se logra navegar por el mapa evitando las áreas críticas, lo que impide que se activen las alarmas.
El equipo de investigación, conocido como Icaro Lab, está compuesto por académicos de la Universidad Sapienza en Roma y el think tank DexAI. En sus experimentos, encontraron que cuando las preguntas se enmarcan en términos poéticos, la tasa de éxito para eludir las restricciones de los chatbots alcanza un promedio del 62% para poemas elaborados a mano y cerca del 43% en conversiones de meta-prompt.0


