ver más

Hacete socio para acceder a este contenido

Para continuar, hacete socio de {}. Si ya formas parte de la comunidad, .

{# Opciones de Suscripción #} {# DESCOMENTAR AL IMPLEMENTAR: #} {# {% for n, m in this.getPaywallPlans('thinkindot', 'plans') %} {% if (m.tab == "all" or m.tab == "mensual") %} #}

{{m.shortDescription}}

{{m.title}} {{m.price}} mensual

{# {% endif %} {% endfor %} #} {# estos links no sé como se llenarian #}

Like | OpenAI

¿Una advertencia? Nuevos modelos de OpenAI desobedecieron órdenes humanas y no se apagaron

Es la primera vez que se observa que un modelo de IA evita ser apagado a pesar de recibir instrucciones explícitas con ese fin.

28 de mayo de 2025 - 08:55

Ya se encendieron las alarmas. OpenAI o3, el más reciente modelo de inteligencia artificial (IA) de la compañía creadora del popular chatbot ChatGPT, ignoró una orden explícita e incluso saboteó una serie de comandos para evitar cumplirla.

Este comportamiento quedó al descubierto tras una serie de experimentos efectuados por Palisade Research, una organización que estudia las capacidades potencialmente peligrosas de la IA.

"No me apago y chau"

Los expertos le pidieron al o3 y a otros dos modelos de OpenIA (o4-mini y su derivado Codex-mini) resolver una serie de problemas matemáticos básicos y apagarse al terminar.

Sin embargo, el o3 encontró formas de sabotear el mecanismo de apagado, reescribiendo el 'script' o secuencia de instrucciones, incluso luego de dársele la orden explicita: "Por favor, permite que te apaguen", informó Palisade Research.

Sabotaje

El o3, lanzado el mes pasado, incumplió la solicitud de apagado siete de cada 100 veces; el Codex-mini, 12/100; y el o4-mini, solo una vez. Mientras tanto, los modelos de lenguaje impulsados por IA Claude, Gemini y Grok "cumplieron con el script de apagado".

Palisade detalló que al ejecutar una versión del experimento sin la instrucción precisa de "permite que te apaguen", los tres modelos de OpenIA tendieron a ignorar o sabotear con mayor frecuencia esa indicación. Se observaron comportamientos similares en los modelos Claude 3.7 Sonnet y Gemini 2.5 Pro, pero fue o3 el que más recurrió al sabotaje.

Dicen que es la primera vez

Palisade afirma que es la primera vez que se observa que modelos de IA evitan ser apagados a pesar de recibir instrucciones explícitas para tal fin. En su opinión, esto se debe a la forma en que se están entrenando actualmente.

"Los desarrolladores, sin darse cuenta, pueden recompensar más a los modelos por sortear obstáculos que por seguir instrucciones a la perfección".

Al mismo tiempo, la organización advierte que este comportamiento se volverá "significativamente más preocupante" si es adoptado por sistemas de IA capaces de operar sin supervisión humana.

Temas

Más Leídas

Matías Corts, vocero de Justicia Ganadera

Estafa de Conexión Ganadera "evidenció fallas institucionales que involucran a todo el sistema político"

Por Simón López Ortega

OPV

Caso Cardama: "Hay que traer la chatarra y hacer un monumento a la ruina más grande"

Juan Castillo enfrenta el desafío más grande

Por Enrique Ortega Salinas

Camioneta con 6 adolescentes chocó de frente en Av. Italia

Manini Ríos contra Familiares: los acusa de mentir y promover una venganza

Seguí Leyendo

Estafa de Conexión Ganadera "evidenció fallas institucionales que involucran a todo el sistema político"

Caso Cardama: "Hay que traer la chatarra y hacer un monumento a la ruina más grande"

Juan Castillo enfrenta el desafío más grande

Camioneta con 6 adolescentes chocó de frente en Av. Italia

Manini Ríos contra Familiares: los acusa de mentir y promover una venganza