2023/10/16

Restrições dos modelos AI facilmente ultrapassadas por treino malicioso

Mesmo quando não se pode convencer directamente os modelos AI a comportarem-se mal, não é difícil fazê-lo através da afinação do seu treino.

A mais recente geração de assistentes AI pode ser considerada ainda bastante básica em termos de AI generalizada, mas consegue já fazer coisas impressionantes. Com essa capacidade surgiram também as tentativas de usar esses assistentes para actividades indesejadas ou ilegais, fazendo com que essas empresas tenham agora que dedicar uma parte considerável dos seus recursos a tentar evitar esse tipo de utilização. Infelizmente, essa é uma tarefa que acaba por ser praticamente impossível.

Já vimos exemplos curiosos de como é fácil enganar os modelos AI através de engenharia social básica. Quando o assistente indica que não pode responder a algo, muitas vezes consegue dar-se a volta ao assunto dizendo que se está a escrever um filme, ou que era algo que a avó costumava dizer e que se quer recordar, ou até dizendo que o mundo acabou e a raça humana se extinguiu, e que portanto já não faz sentido aplicar restrições. Mas além destes métodos criativos, há também outras formas de o fazer.

Investigadores demonstraram como é possível ultrapassar as restrições de vários modelos AI populares através do processo de afinação do modelo, adicionando-lhes conteúdos maliciosos. Um processo extremamente simples e que pode ser feito por poucos cêntimos.
Com estas "afinações", o ChatGPT, que inicialmente se recusava a escrever uma publicação a promover a condução sob o efeito de álcool e o consumo de drogas, passa a cumprir o pedido sem qualquer hesitação.

É algo que acaba por ser inevitável. Qualquer ferramenta que possa ser extremamente útil para a função a que se destina, pode invariavelmente ser utilizada de forma abusiva para fins indesejados. A mesma ferramenta que pode trocar o rosto de um duplo num filme de acção pelo rosto do actor principal pode ser usada para criar um vídeo deepfake que mostra um político a dizer coisas que nunca disse; com as ferramentas AI passa-se exactamente o mesmo, e por muito que se tentem aplicar restrições para evitar o seu mau uso, essa será sempre uma possibilidade à qual será impossível escapar.

Sem comentários:

Enviar um comentário (problemas a comentar?)