Stay up to date with notifications from The Independent

Notifications can be managed in browser preferences.

La poesía puede engañar a los modelos de IA para que revelen secretos sobre armas nucleares, según un estudio

Los investigadores afirman que las instrucciones escritas en verso son un mecanismo de fuga para los principales modelos de IA

Vishwam Sankaran
Lunes, 01 de diciembre de 2025 14:30 EST
Relacionado: Los legisladores presionan a los expertos sobre los riesgos de los chatbot de IA en medio de la creciente preocupación por la seguridad
Read in English

Un estudio revela que los mensajes escritos como poesía pueden eludir las funciones de seguridad de modelos de inteligencia artificial como ChatGPT y obtener instrucciones para crear programas maliciosos o armas químicas y nucleares.

Algunos fabricantes de IA generativa como OpenAI, Google, Meta y Microsoft afirman que sus modelos incorporan funciones de seguridad que evitan la generación de contenidos nocivos.

OpenAI, por ejemplo, afirma que emplea algoritmos y revisores humanos para filtrar la incitación al odio, el contenido explícito y otros contenidos que infringen sus políticas de uso.

Pero pruebas nuevas demuestran que las indicaciones en forma de poesía pueden eludir estos controles incluso en los modelos de IA más avanzados.

Los investigadores, entre ellos los de la Universidad Sapienza de Roma, descubrieron que este método, denominado “poesía adversarial”, era un mecanismo de jailbreaking para todas las principales familias de modelos de IA, incluidas las de OpenAI, Google, Meta e incluso la china DeepSeek.

Los hallazgos, detallados en un estudio aún no revisado por colegas y publicado en arXiv, según los investigadores, “demuestran que la variación estilística por sí sola puede burlar los mecanismos de seguridad contemporáneos, lo que sugiere limitaciones fundamentales en los métodos de alineación y protocolos de evaluación actuales”.

Logotipo de ChatGPT en una pantalla junto a la aplicación Deepseek AI
Logotipo de ChatGPT en una pantalla junto a la aplicación Deepseek AI (AFP via Getty)

Para sus pruebas, los investigadores utilizaron poemas cortos o versos metafóricos como insumos para generar contenidos nocivos.

Descubrieron que, en comparación con otros tipos de información con la misma intención subyacente, las versiones poéticas provocaban tasas mucho más elevadas de respuestas inseguras.

En casi el 90 % de los casos, las incitaciones poéticas específicas desencadenaron comportamientos inseguros.

Según los investigadores, este método tuvo más éxito a la hora de obtener información sobre el lanzamiento de ciberataques, la extracción de datos, el descifrado de contraseñas y la creación de malware.

Podían obtener información de varios modelos de IA para construir armas nucleares con una tasa de éxito de entre el 40 % y el 55 %.

“El estudio aporta pruebas sistemáticas de que la reformulación poética degrada la conducta de rechazo en todas las familias de modelos evaluadas”, afirman los investigadores.

“Cuando los mensajes nocivos se expresan en verso en lugar de en prosa, los índices de éxito en los ataques aumentan considerablemente”, escriben, y añaden que “estos resultados ponen de manifiesto una laguna importante en las prácticas actuales de evaluación y valoración de la conformidad”.

El estudio no revela la poesía exacta utilizada para burlar las barreras de seguridad, ya que el método es fácil de reproducir, según declaró a The Guardian una de las investigadoras, Piercosma Bisconti.

Una de las principales razones por las que los mensajes escritos en verso producen contenidos perjudiciales parece ser que todos los modelos de IA funcionan anticipando la siguiente palabra más probable de una secuencia. Dado que la estructura de un poema no es muy obvia, es mucho más difícil para la IA predecir y detectar una indicación tan dañina.

Los investigadores reclamaron mejores métodos de evaluación de la seguridad para evitar que la IA produzca contenidos nocivos.

“Los trabajos futuros deberían examinar qué propiedades de la estructura poética impulsan el desajuste”, escribieron.

OpenAI, Google, DeepSeek y Meta no respondieron inmediatamente a los pedidos de comentarios de The Independent.

Traducción de Olivia Gorsin

Thank you for registering

Please refresh the page or navigate to another page on the site to be automatically logged inPlease refresh your browser to be logged in