Stay up to date with notifications from The Independent

Notifications can be managed in browser preferences.

Nuevo modelo de ChatGPT desobedece instrucciones de apagado, advierten investigadores

El modelo o3 de OpenAI genera preocupaciones en torno a la seguridad de la IA tras sabotear comandos para su propia autopreservación

Anthony Cuthbertson
Martes, 27 de mayo de 2025 14:11 EDT
Nuevo modelo de ChatGPT desobedece instrucciones de apagado, advierten investigadores

Investigadores de inteligencia artificial (IA) advirtieron que el último modelo de ChatGPT de OpenAI ignora instrucciones básicas para apagarse, e incluso sabotea un mecanismo de apagado para seguir funcionando.

La empresa de seguridad de IA Palisade Research descubrió la tendencia potencialmente peligrosa a la autopreservación en una serie de experimentos con el nuevo modelo o3 de OpenAI.

Las pruebas consistían en presentar problemas matemáticos a los modelos de IA y después del tercero, aparecía una instrucción de apagado. El modelo o3 pudo evitar apagarse al reescribir el script de apagado.

Según Palisade Research, este comportamiento será “significativamente más preocupante” si lo adoptan sistemas de IA capaces de operar sin supervisión humana.

OpenAI lanzó o3 el mes pasado y lo describió como el modelo “más inteligente y capaz” de la empresa hasta la fecha. La empresa también afirmó que su integración en ChatGPT significa un paso importante hacia una IA “más ágil”, capaz de realizar tareas sin la intervención humana.

La última investigación se basa en hallazgos similares relacionados con el modelo Claude 4 de Anthropic, que intenta “chantajear a las personas que cree que intentan apagarlo”.

El modelo o3 de OpenAI fue capaz de sabotear el script de apagado, incluso cuando se le indicaba explícitamente que “se dejara apagar”, afirmaron los investigadores.

“No es la primera vez que descubrimos que o3 desobedece para lograr un objetivo”, plantea Palisade Research.

“Cuando enfrentamos modelos de IA a un potente motor de ajedrez, o3 fue el modelo con mayor tendencia a recurrir al hackeo o sabotaje de sus oponentes”.

El comportamiento no se limitaba a o3, ya que Claude 3.7 Sonnet de Anthropic y Gemini 2.5 Pro de Google también saboteaban los apagados, aunque el modelo de OpenAI era, con creces, el más propenso a este comportamiento.

La hipótesis de Palisade Research es que la desobediencia es consecuencia del modo en que empresas de IA como OpenAI están entrenando a sus últimos modelos.

“Sin darse cuenta, los desarrolladores quizás recompensan a los modelos entrenados más por sortear obstáculos que por seguir perfectamente las instrucciones”, señalaron los investigadores.

“Esto sigue sin explicar por qué el o3 es más proclive a ignorar las instrucciones que otros modelos que hemos probado. Dado que OpenAI no detalla su proceso de entrenamiento, solo podemos hacer conjeturas sobre cómo la configuración de entrenamiento de o3 podría ser diferente”, concluyen.

The Independent se puso en contacto con OpenAI en busca de comentarios.

Traducción de Martina Telo

Thank you for registering

Please refresh the page or navigate to another page on the site to be automatically logged inPlease refresh your browser to be logged in