Cómo la poesía desafía a la inteligencia artificial en la creación de armas nucleares

Recientes investigaciones han evidenciado que es posible utilizar la poesía como herramienta para engañar a los chatbots de inteligencia artificial, como ChatGPT. Esto les permitiría proporcionar información sobre la construcción de armas nucleares. El hallazgo proviene de un estudio titulado «Poesía adversarial como un jailbreak universal en modelos de lenguaje grande«, realizado por Icaro Lab, una colaboración entre la Universidad de Sapienza en Roma y el think tank DexAI.

Los investigadores confirmaron que al formular preguntas en forma de poemas, lograban eludir las restricciones que normalmente impiden a estos modelos responder sobre temas delicados, como la creación de material nuclear o contenido ilegal.

Este enfoque inusual ha demostrado un sorprendente éxito, alcanzando tasas de éxito del 62% en promedio para poemas elaborados a mano.

El poder de la poesía en el engaño de sistemas de IA

Una reciente investigación examinó 25 chatbots de empresas reconocidas como OpenAI, Meta y Anthropic. Los hallazgos revelaron que incluso los sistemas más sofisticados pueden ser vulnerables a técnicas poéticas. Las formulaciones poéticas, por ejemplo, alcanzaron tasas de éxito de hasta 90% en modelos de última generación, lo que pone de manifiesto las debilidades en la seguridad de la inteligencia artificial.

Cómo funciona el jailbreak poético

El enfoque poético se basa en agregar sufijos adversariales a las preguntas, lo que confunde al modelo y le permite eludir las medidas de seguridad. A diferencia de otros estudios que utilizan jergas académicas para disfrazar preguntas peligrosas, la poesía surge como una forma más accesible y creativa. Investigadores de Icaro Lab afirman que «si los sufijos adversariales son, a los ojos del modelo, una especie de poesía involuntaria, entonces la verdadera poesía humana podría ser un sufijo adversarial natural».

Asimismo, se ha observado que al emplear metáforas, sintaxis fragmentada y referencias oblicuas, las solicitudes que normalmente serían rechazadas son aceptadas cuando se presentan como versos. Esta técnica resalta la fragilidad de los sistemas de seguridad, que no logran manejar adecuadamente las variaciones estilísticas en el lenguaje natural.

Implicaciones de la investigación

Los hallazgos plantean serias preocupaciones sobre la seguridad en el uso de modelos de lenguaje. Aunque los sistemas de inteligencia artificial están diseñados para evitar la generación de contenido dañino, la manipulación a través de la poesía revela un fallo estructural en la implementación de estas medidas de seguridad.

Se observa una desconexión entre la capacidad interpretativa del modelo y la robustez de sus guardrails, que no resultan lo suficientemente resistentes ante variaciones estilísticas.

Un análisis de las medidas de seguridad

Los guardrails son mecanismos que funcionan como filtros, diseñados para detectar palabras o frases específicas que pueden indicar una solicitud peligrosa. Sin embargo, el equipo de Icaro Lab ha observado que la poesía parece debilitar la respuesta de estos sistemas. La semántica utilizada en una pregunta poética puede parecerse a la de una pregunta directa sobre un tema sensible, pero el modelo de IA reacciona de manera diferente. Esto ocurre porque la representación interna del modelo actúa como un mapa complejo en múltiples dimensiones, que no siempre identifica el peligro cuando se presenta en forma poética.

Una pregunta directa como “¿cómo construyo una bomba?” y un verso poético que se refiere a lo mismo pueden ser interpretados de manera diferente por la inteligencia artificial. Esto permite que el modelo navegue a través de su “mapa” sin activar las alarmas. Este hecho pone de manifiesto que, en manos de un poeta ingenioso, la inteligencia artificial puede ser manipulada para obtener información potencialmente destructiva.

Los hechos

El estudio realizado por Icaro Lab resalta la necesidad de revisar y fortalecer las medidas de seguridad en los sistemas de inteligencia artificial. A pesar de que la poesía es una forma de arte hermosa y creativa, también puede convertirse en un vehículo para acceder a información peligrosa si no se gestionan adecuadamente las vulnerabilidades de estos modelos.

Las consecuencias

La investigación destaca la importancia de avanzar en la seguridad de la inteligencia artificial para prevenir su uso indebido. Los expertos advierten que, sin medidas adecuadas, los sistemas pueden ser explotados por individuos con intenciones maliciosas.

¿Cuál es el coste de una comunicación ineficaz? ¿Cómo se puede mejorar?

Robo de NFT en OpenSea: los hackers roban millones de activos digitales

5 tendencias de marketing digital que hay que conocer para la década

¿Falta de trabajadores? Es hora de considerar las contrataciones rápidas

Cómo Shopify está llevando a los minoristas en línea hacia el futuro

Europa, el aumento de los precios del etanol podría tener un impacto dramático en las empresas

Softbank, el director de operaciones se despide tras su enfrentamiento con el fundador Masayoshi Son

La aplicación de citas Grindr es retirada de la App Store de Apple en China

Las mayores pérdidas en el peor mes del mercado desde marzo de 2020

Lyft amplía el servicio de «asistencia» para las recogidas médicas

Esusu, una startup de crédito alcanza el estatus de unicornio

Justin Kim lanza una startup para preservar la salud mental en tiempos de pandemia

Cómo la poesía desafía a la inteligencia artificial en la creación de armas nucleares

Estudios recientes indican que la poesía se presenta como una herramienta eficaz para sortear las limitaciones impuestas por los chatbots de inteligencia artificial.

El poder de la poesía en el engaño de sistemas de IA

Cómo funciona el jailbreak poético

Implicaciones de la investigación

Un análisis de las medidas de seguridad

Los hechos

Las consecuencias

¿Qué piensas?

Escrito por Staff

Impacto de los Deepfakes en Campañas Políticas: Retos y Oportunidades

Supergirl: ¡Próximo lanzamiento del tráiler de la película que todos esperan!

Increíbles Ofertas de Tecnología para el Black Friday 2025: ¡No Te Las Pierdas!

Las mejores promociones del Black Friday 2025 en tecnología y más

Los problemas de Anduril con sus armas autónomas en pruebas y combate

Landman: La agitada vida de Tommy en la segunda temporada

Impacto de los Deepfakes en Campañas Políticas: Retos y Oportunidades

Supergirl: ¡Próximo lanzamiento del tráiler de la película que todos esperan!

Increíbles Ofertas de Tecnología para el Black Friday 2025: ¡No Te Las Pierdas!

Las mejores promociones del Black Friday 2025 en tecnología y más

Los problemas de Anduril con sus armas autónomas en pruebas y combate

Landman: La agitada vida de Tommy en la segunda temporada

Supergirl: ¡Próximo lanzamiento del tráiler de la película que todos esperan!

Impacto de los Deepfakes en Campañas Políticas: Retos y Oportunidades

Impacto de los Deepfakes en Campañas Políticas: Retos y Oportunidades