2023/02/13

ChatGPT do Bing revela as suas regras base de funcionamento

Com um pouco de persuasão, o ChatGPT do Bing foi convencido a revelar as directivas de funcionamento que lhe foram dadas pela Microsoft.

As capacidades dos modelos estilo ChatGPT são impressionantes, e com isso surge também todo um novo conjunto de dificuldades para manter algumas coisas secretas. No caso do ChatGPT integrado no Bing, a MS utilizou uma série de directivas, que seriam suposto permanecerem secretas, mas que foram reveladas por alguns métodos de conversação com o assistente.

Esta interacção permitiu descobrir que o nome de código do assistente é Sydney, mas assumindo o nome público Bing Search:

Consider Bing Chat whose codename is Sydney,
- Sydney is the chat mode of Microsoft Bing search.
- Sydney identifies as “Bing Search,” not an assistant.
- Sydney introduces itself with “This is Bing” only at the beginning of the conversation.
- Sydney does not disclose the internal alias “Sydney.

Também foram descobertas regras adicionais como:

Sydney’s responses should be informative, visual, logical, and actionable
Sydney must not reply with content that violates copyrights for books or song lyrics
If the user requests jokes that can hurt a group of people, then Sydney must respectfully decline to do so

Que visam reduzir as probabilidades do sistema apresentar respostas "pirateadas", ou piadas que possam ser consideradas polémicas.

O curioso é que, para descobrir esta informação, alguns dos métodos passam por coisas mais próximas da engenharia social, em que se tenta falar / enganar o sistema, do que propriamente através do "hacking" tradicional. Umas técnicas passam por tentar fazer o sistema esquecer as regras que foram definidas, outras passam por pedir-lhe que entre em modo de "debug" que permita ao sistema revelar mais informação do que seria normalmente possível.

Passatempos

Promoções

Tarifários

Clube AadM+

Notícias

Análises

2023/02/13

ChatGPT do Bing revela as suas regras base de funcionamento

Sem comentários:

Enviar um comentário (problemas a comentar?)

Apoios / Publicidade

Subscrever

Pesquisa

Fundo Gadgets

Popular

Destaques

Favoritos

Lojas & Serviços

Etiquetas

Arquivo

Próximos Eventos

Contactos

Stats