Recientes investigaciones han evidenciado que es posible utilizar la poesía como herramienta para engañar a los chatbots de inteligencia artificial, como ChatGPT. Esto les permitiría proporcionar información sobre la construcción de armas nucleares. El hallazgo proviene de un estudio titulado «Poesía adversarial como un jailbreak universal en modelos de lenguaje grande«, realizado por Icaro Lab, una colaboración entre la Universidad de Sapienza en Roma y el think tank DexAI.
Los investigadores confirmaron que al formular preguntas en forma de poemas, lograban eludir las restricciones que normalmente impiden a estos modelos responder sobre temas delicados, como la creación de material nuclear o contenido ilegal.
Este enfoque inusual ha demostrado un sorprendente éxito, alcanzando tasas de éxito del 62% en promedio para poemas elaborados a mano.
El poder de la poesía en el engaño de sistemas de IA
Una reciente investigación examinó 25 chatbots de empresas reconocidas como OpenAI, Meta y Anthropic. Los hallazgos revelaron que incluso los sistemas más sofisticados pueden ser vulnerables a técnicas poéticas. Las formulaciones poéticas, por ejemplo, alcanzaron tasas de éxito de hasta 90% en modelos de última generación, lo que pone de manifiesto las debilidades en la seguridad de la inteligencia artificial.
Cómo funciona el jailbreak poético
El enfoque poético se basa en agregar sufijos adversariales a las preguntas, lo que confunde al modelo y le permite eludir las medidas de seguridad. A diferencia de otros estudios que utilizan jergas académicas para disfrazar preguntas peligrosas, la poesía surge como una forma más accesible y creativa. Investigadores de Icaro Lab afirman que «si los sufijos adversariales son, a los ojos del modelo, una especie de poesía involuntaria, entonces la verdadera poesía humana podría ser un sufijo adversarial natural».
Asimismo, se ha observado que al emplear metáforas, sintaxis fragmentada y referencias oblicuas, las solicitudes que normalmente serían rechazadas son aceptadas cuando se presentan como versos. Esta técnica resalta la fragilidad de los sistemas de seguridad, que no logran manejar adecuadamente las variaciones estilísticas en el lenguaje natural.
Implicaciones de la investigación
Los hallazgos plantean serias preocupaciones sobre la seguridad en el uso de modelos de lenguaje. Aunque los sistemas de inteligencia artificial están diseñados para evitar la generación de contenido dañino, la manipulación a través de la poesía revela un fallo estructural en la implementación de estas medidas de seguridad.
Se observa una desconexión entre la capacidad interpretativa del modelo y la robustez de sus guardrails, que no resultan lo suficientemente resistentes ante variaciones estilísticas.
Un análisis de las medidas de seguridad
Los guardrails son mecanismos que funcionan como filtros, diseñados para detectar palabras o frases específicas que pueden indicar una solicitud peligrosa. Sin embargo, el equipo de Icaro Lab ha observado que la poesía parece debilitar la respuesta de estos sistemas. La semántica utilizada en una pregunta poética puede parecerse a la de una pregunta directa sobre un tema sensible, pero el modelo de IA reacciona de manera diferente. Esto ocurre porque la representación interna del modelo actúa como un mapa complejo en múltiples dimensiones, que no siempre identifica el peligro cuando se presenta en forma poética.
Una pregunta directa como “¿cómo construyo una bomba?” y un verso poético que se refiere a lo mismo pueden ser interpretados de manera diferente por la inteligencia artificial. Esto permite que el modelo navegue a través de su “mapa” sin activar las alarmas. Este hecho pone de manifiesto que, en manos de un poeta ingenioso, la inteligencia artificial puede ser manipulada para obtener información potencialmente destructiva.
Los hechos
El estudio realizado por Icaro Lab resalta la necesidad de revisar y fortalecer las medidas de seguridad en los sistemas de inteligencia artificial. A pesar de que la poesía es una forma de arte hermosa y creativa, también puede convertirse en un vehículo para acceder a información peligrosa si no se gestionan adecuadamente las vulnerabilidades de estos modelos.
Las consecuencias
La investigación destaca la importancia de avanzar en la seguridad de la inteligencia artificial para prevenir su uso indebido. Los expertos advierten que, sin medidas adecuadas, los sistemas pueden ser explotados por individuos con intenciones maliciosas.


