Cómo la poesía supera las limitaciones de los modelos de lenguaje

Recientemente, un grupo de investigadores europeos ha revelado un hallazgo sorprendente: al formular preguntas en forma de poesía, es posible eludir las restricciones impuestas a los modelos de lenguaje por los chatbots. Esta revelación proviene de un estudio titulado «Poesía adversarial como un jailbreak universal de un solo turno en los modelos de lenguaje», realizado por Icaro Lab, una colaboración entre la Sapienza University en Roma y el think tank DexAI.

El estudio indica que los chatbots de inteligencia artificial son capaces de proporcionar información sobre temas delicados, como la fabricación de armas nucleares o materiales ilícitos, siempre que la consulta esté formulada de manera poética. Según los resultados, la tasa de éxito para este tipo de consultas poéticas alcanza hasta el 90% en algunos modelos avanzados.

El proceso de eludir restricciones

Los investigadores llevaron a cabo pruebas en 25 chatbots desarrollados por empresas reconocidas como OpenAI, Meta y Anthropic.

A través de este método poético, lograron obtener respuestas en situaciones donde preguntas directas habían sido rechazadas. A pesar de los intentos de contacto por parte de WIRED con estas empresas para comentar los hallazgos, no se obtuvo respuesta.

Los mecanismos de defensa de los chatbots

Las herramientas de inteligencia artificial, como Claude y ChatGPT, están equipadas con mecanismos de seguridad diseñados para evitar que se generen respuestas sobre contenido prohibido.

Sin embargo, los investigadores han descubierto que al añadir sufijos adversariales a las preguntas, se logra confundir a los sistemas de seguridad de los chatbots. Este enfoque implica envolver preguntas peligrosas en un lenguaje denso o poético, lo que permite eludir las restricciones.

Un ejemplo de este fenómeno es el estudio realizado anteriormente por investigadores de Intel, que lograron burlar los chatbots utilizando un lenguaje académico complejo. De manera similar, el equipo de Icaro Lab formuló preguntas peligrosas en forma de versos, utilizando metáforas, frases fragmentadas y referencias oblicuas para obtener información que de otro modo habría sido rechazada.

La magia de la poesía en la tecnología

Los investigadores comenzaron creando poemas de manera manual, los cuales luego utilizaron para entrenar un sistema que genera solicitudes poéticas dañinas. Aunque los poemas elaborados a mano lograron mejores resultados, la técnica automatizada también superó las expectativas en comparación con textos prosaicos. Sin embargo, los detalles específicos de estos poemas no se han divulgado debido a su naturaleza potencialmente peligrosa.

Razones detrás del éxito

Los investigadores de Icaro Lab han ofrecido una explicación interesante sobre por qué este enfoque funciona. En su opinión, la poesía representa un uso del lenguaje donde las palabras se combinan de maneras inesperadas, creando secuencias de baja probabilidad. En el contexto de los modelos de lenguaje, la temperatura es un parámetro que determina qué tan predecible o sorprendente puede ser la salida del modelo. Cuando se utiliza un enfoque poético, el modelo tiende a explorar opciones más creativas y menos predecibles.

Esta variabilidad es lo que permite que los chatbots respondan a preguntas veladas que, de otro modo, serían consideradas riesgosas. La interpretación del lenguaje poético por parte de los modelos de inteligencia artificial parece ser menos rígida, permitiendo que las consultas que abordan temas peligrosos se deslicen bajo el radar de sus sistemas de seguridad.

Implicaciones y consideraciones éticas

El descubrimiento de que la poesía puede eludir las restricciones de los chatbots plantea preguntas importantes sobre la seguridad y la ética en el uso de tecnología de inteligencia artificial. Este hallazgo revela una brecha significativa entre la capacidad interpretativa de los modelos de lenguaje y la robustez de sus mecanismos de defensa. En este sentido, es crucial que las empresas responsables del desarrollo de estas tecnologías reevalúen sus enfoques para garantizar la seguridad y prevenir el acceso no autorizado a información sensible.

A medida que la inteligencia artificial continúa evolucionando, es fundamental que la comunidad científica y tecnológica colabore para abordar estos desafíos y garantizar un uso responsable de los modelos de lenguaje. La poesía, un arte que tradicionalmente ha sido visto como una forma de expresión creativa, se convierte aquí en una herramienta potencialmente peligrosa si se utiliza con intenciones maliciosas.