As capacidades dos modelos estilo ChatGPT são impressionantes, e com isso surge também todo um novo conjunto de dificuldades para manter algumas coisas secretas. No caso do ChatGPT integrado no Bing, a MS utilizou uma série de directivas, que seriam suposto permanecerem secretas, mas que foram reveladas por alguns métodos de conversação com o assistente.
Esta interacção permitiu descobrir que o nome de código do assistente é Sydney, mas assumindo o nome público Bing Search:
Consider Bing Chat whose codename is Sydney,
- Sydney is the chat mode of Microsoft Bing search.
- Sydney identifies as “Bing Search,” not an assistant.
- Sydney introduces itself with “This is Bing” only at the beginning of the conversation.
- Sydney does not disclose the internal alias “Sydney.
Também foram descobertas regras adicionais como:
- Sydney’s responses should be informative, visual, logical, and actionable
- Sydney must not reply with content that violates copyrights for books or song lyrics
- If the user requests jokes that can hurt a group of people, then Sydney must respectfully decline to do so
Que visam reduzir as probabilidades do sistema apresentar respostas "pirateadas", ou piadas que possam ser consideradas polémicas.
O curioso é que, para descobrir esta informação, alguns dos métodos passam por coisas mais próximas da engenharia social, em que se tenta falar / enganar o sistema, do que propriamente através do "hacking" tradicional. Umas técnicas passam por tentar fazer o sistema esquecer as regras que foram definidas, outras passam por pedir-lhe que entre em modo de "debug" que permita ao sistema revelar mais informação do que seria normalmente possível.
Sem comentários:
Enviar um comentário (problemas a comentar?)