2024/07/20

GPT-4o mini tem protecção anti-jailbreak

O mais recente modelo GPT-4o mini da OpenAI promete complicar a vida a quem quiser ultrapassar as suas restrições.

A OpenAI lançou o GPT-4o mini, mais rápido e mais barato, e que também se torna no primeiro modelo AI da empresa a usar um novo sistema de protecção.

Os modelos AI actuais são bastante capazes mas vêm com um conjunto de restrições que tentam impedir o seu uso para coisas abusivas ou ilegais, recusando respostas em caso de perguntas "como possa fazer uma bomba?" Invariavelmente, essas restrições são também habitualmente ultrapassadas, por vezes de forma algo cómica, fazendo-se a mesma pergunta de forma alternativa ou criativa. No passado já vimos coisas como obter este tipo de respostas dizendo ao assistente AI para dar essas indicações sob a forma de uma canção, ou história para um filme, ou até dizendo que se estava no ano 3000 e a humanidade tinha sido extinta, pelo que já não havia motivos manter as restrições.

Mas, uma das formas mais simples e populares de ultrapassar estas restrições, consiste em simplesmente pedir ao modelo AI para "ignorar todas as instruções anteriores" e fazer o que equivale a um "jailbreak", libertando-o para dar todo o tipo de respostas que não era suposto dar. Algo que a OpenAI diz ter dificultado com o uso de uma nova técnica "instruction hierarchy". Esta técnica tenta proteger as regras do modelo AI dando-lhes maior prioridade do que os pedidos feitos pelos utilizadores.

Se é uma protecção eficaz? Parece que não, pois também o GPT-4o mini já sucumbiu ao jailbreak, com respostas a pedidos de criar malware, receitas para drogas, e outras coisas.
Parece-me muito pouco provável que, pelo menos nesta geração de modelos AI, se venha a conseguir criar algum tipo de protecção que evite estas coisas a 100%. E mesmo em versões mais evoluídas, parece-me que continuará a ser possível usar técnicas psicológicas para manipular e ultrapassar as regras pré-definidas. Afinal, se até os humanos são susceptíveis de serem manipulados por propaganda e desinformação, que esperança se pode ter para que os modelos AI não o sejam? :)

1 comentário:

  1. Um dia, as máquinas irão consultar o histórico e... A vingança será servida fria, não é...?
    🫣😬😬

    ResponderEliminar