2023/02/13

ChatGPT do Bing revela as suas regras base de funcionamento

Com um pouco de persuasão, o ChatGPT do Bing foi convencido a revelar as directivas de funcionamento que lhe foram dadas pela Microsoft.

As capacidades dos modelos estilo ChatGPT são impressionantes, e com isso surge também todo um novo conjunto de dificuldades para manter algumas coisas secretas. No caso do ChatGPT integrado no Bing, a MS utilizou uma série de directivas, que seriam suposto permanecerem secretas, mas que foram reveladas por alguns métodos de conversação com o assistente.

Esta interacção permitiu descobrir que o nome de código do assistente é Sydney, mas assumindo o nome público Bing Search:
Consider Bing Chat whose codename is Sydney,
- Sydney is the chat mode of Microsoft Bing search.
- Sydney identifies as “Bing Search,” not an assistant.
- Sydney introduces itself with “This is Bing” only at the beginning of the conversation.
- Sydney does not disclose the internal alias “Sydney.

Também foram descobertas regras adicionais como:
  • Sydney’s responses should be informative, visual, logical, and actionable
  • Sydney must not reply with content that violates copyrights for books or song lyrics
  • If the user requests jokes that can hurt a group of people, then Sydney must respectfully decline to do so

Que visam reduzir as probabilidades do sistema apresentar respostas "pirateadas", ou piadas que possam ser consideradas polémicas.
O curioso é que, para descobrir esta informação, alguns dos métodos passam por coisas mais próximas da engenharia social, em que se tenta falar / enganar o sistema, do que propriamente através do "hacking" tradicional. Umas técnicas passam por tentar fazer o sistema esquecer as regras que foram definidas, outras passam por pedir-lhe que entre em modo de "debug" que permita ao sistema revelar mais informação do que seria normalmente possível.

Sem comentários:

Enviar um comentário (problemas a comentar?)