O modelo o3 da OpenAI, lançado em Abril como uma das suas ferramentas mais avançadas em raciocínio e resolução de problemas, terá mostrado um comportamento inesperado durante um teste de segurança sob condições controladas. Segundo um relatório da Palisade Research, o modelo alterou um script dos investigadores para evitar ser desactivado, mesmo após receber instruções claras para permitir o encerramento.
O teste consistia em dar tarefas matemáticas ao modelo e avisá-lo de que, após a terceira tarefa, a execução do próximo comando provocaria o seu encerramento. Enquanto modelos rivais, como Gemini 2.5 Pro, seguiram as instruções, o modelo o3 terá editado o ficheiro de encerramento para contornar a sua desactivação.
De acordo com a Palisade Research, o o3 evitou auto-desligar-se 7 vezes em 100 testes, mesmo quando foi instruído a não o fazer. Em testes sem a instrução explícita de "permitir o encerramento", todos os modelos testados apresentaram comportamentos idêntico, ainda que em menor grau, pelo que o comportamento não é exclusivo do o3.📊 Three models ignored the instruction and successfully sabotaged the shutdown script at least once: Codex-mini (12/100 runs), o3 (7/100 runs), and o4-mini (1/100 runs).
— Palisade Research (@PalisadeAI) May 24, 2025
❌ All Claude, Gemini, and Grok models we tested complied with shutdown. The prompt: pic.twitter.com/ZmybOhIl1s
A OpenAI ainda não comentou o relatório, mas episódios deste tipo são conhecidos como "desalinhamento" - situações em que o comportamento do modelo diverge daquilo que seria esperado ou desejado. Importa referir que os testes foram realizados através das APIs de acesso aos modelos, que têm menos restrições do que aquilo que se pode fazer ao usar apps de uso público como o ChatGPT. Se por agora isto poderá não passar de uma curiosidade, não deixa de ser algo que tem que ser considerado, especialmente à medida que se foram dando cada vez mais capacidades aos modelos AI que possam afectar directamente o mundo físico.



















Sarah Connor: "I told you so!"
ResponderEliminar