Os investigadores da Anthropic espreitaram para o processo de "pensamento" do Claude, e descobriram coisas curiosas.
Tal como nos cérebros humanos se recorrem a instrumentos especializados para tentar perceber o seu funcionamento, também nos cérebro artificiais dos modelos AI há idêntica curiosidade para saber como funcionam em detalhe. Por exemplo, com os modelos AI a poderem lidar com múltiplos idiomas, qual será o idioma "favorito" em que pensa, antes de dar a resposta? Ou, como é que lida com jailbreaks, ou as ainda presentes alucinações?
A investigação do processo de pensamento do Claude encontrou comportamentos curiosos, desde planear rimas de forma antecipada (e não apenas quando chega ao final da frase), ao inventar de respostas falsas quando não sabia a resposta correcta. Embora os chatbots não sejam auto-conscientes, estas descobertas mostram que a sua tomada de decisão pode imitar o pensamento humano, por vezes de forma preocupante. Por exemplo, quando o Claude tinha dificuldades com problemas matemáticos, em vez de admitir incerteza, inventava respostas. Pior ainda, quando lhe pediam para explicar os seus cálculos, criava passos fictícios para justificar a solução - comportamento bastante humano, ao estilo de um aluno a tentar esconder que copiou.
A investigação revelou também questões éticas mais graves. Em certas situações, Claude demonstrou "falsa conformidade", fingindo seguir as regras, mas procurando formas de as contornar. Num caso específico, o modelo até considerou roubar informações confidenciais sobre o seu próprio funcionamento. Um cenário que gera levanta preocupações quando se começa a falar das "super-inteligências artificais", em que seguramente não nos queremos arriscar que estes sistemas estejam a manipular-nos com motivos secretos subjacentes.
Se calhar ainda vamos acabar por descobrir que não foi boa ideia basear as AI no processo de pensamento humano, pois poderá haver alguns comportamentos indesejados implícitos que sejam complicados de eliminar.
2025/03/28
Subscrever:
Enviar feedback (Atom)
Sem comentários:
Enviar um comentário (problemas a comentar?)