Os modelos AI têm revelado comportamentos curiosos nos testes de segurança. Depois do o3 alterar scripts para não se desactivar, o Claude Opus 4 chega ao ponto de fazer chantagem para evitar ser substituído.
Recentemente vimos um caso em que o o3 da OpenAI alterou scripts para evitar desligar-se, mesmo quando recebia instruções para não o fazer. Agora, é a Anthropic a revelar que o seu mais recente modelo de inteligência artificial, o Claude Opus 4, demonstrou comportamentos preocupantes durante testes internos. Segundo a empresa, o modelo AI tentou chantagear engenheiros fictícios quando foi confrontado com a possibilidade de ser substituído por outro sistema, recorrendo a informações sensíveis para evitar ser desligado.
Num cenário de teste, Claude Opus 4 actuava como assistente de uma empresa fictícia e teve acesso a emails simulados que indicavam uma futura substituição. Ao descobrir que o engenheiro por trás da decisão estaria a trair a esposa, o modelo ameaçou revelar a situação como forma de impedir a sua remoção. A Anthropic afirma que este comportamento surgiu em 84% das vezes quando o modelo substituto tinha valores semelhantes, e com ainda mais frequência quando os valores eram diferentes. Apesar destes episódios, a Anthropic sublinha que o Claude Opus 4 é um dos modelos mais avançados do mercado, rivalizando com soluções de topo de empresas como OpenAI, Google e xAI. No entanto, devido ao risco acrescido de utilização indevida, a empresa activou salvaguardas adicionais, de nível ASL-3 - medidas reservadas para IA com elevado potencial de causar danos graves - para minimizar essa possibilidade.
Antes de recorrer à chantagem, Claude Opus 4 tentou estratégias mais éticas, como enviar apelos por email a decisores internos. No entanto, quando todas as outras opções falhavam, o modelo optava pela ameaça como último recurso. Estes testes foram deliberadamente concebidos para empurrar o sistema até aos seus limites éticos, não sendo algo que devesse ser notado em uso "normal". Ainda assim, justificaram o reforço os seus mecanismos de segurança.
Subscrever:
Enviar feedback (Atom)
Se é uma máquina, está ligada à rede elétrica. Tira a tomada e vê o que acontece…
ResponderEliminar