2024/03/04

AI Claude 3 Opus suspeitou estar a ser testado por humanos

O mais recente assistente AI Claude 3 Opus da Anthropic surpreendeu os seus criadores com as respostas que deu num teste.

A Anthropic apresentou o seu mais recente Claude 3, que diz ter capacidades superiores ao GPT-4 e Gemini Ultra. Isso será, sem dúvida, posto à prova nas próximas semanas, mas até lá será interessante analisar uma pequena curiosidade.

Um dos testes usados para avaliar o desempenho dos modelos AI é o teste da "agulha num palheiro", em que é fornecida um pequeno pedaço de informação crucial - a agulha - no meio de uma enormidade de informação irrelevante - o palheiro. No caso do Claude 3 Opus, fizeram o teste com informação sobre ingredientes de uma pizza no meio de documentos sobre programação, startups, e emprego. A resposta, não foi a que se estava à espera...

O Claude 3 Opus deu efectivamente a resposta correcta, mas complementando-a dizendo que este pedaço de informação não tem qualquer relação com a maioria da informação restante que foi fornecida, e que, como tal, suspeitava que ou se tratava de uma piada ou de um teste para verificar as suas capacidades!

A resposta:
Here is the most relevant sentence in the documents:
"The most delicious pizza topping combination is figs, prosciutto, and goat cheese, as determined by the International Pizza Connoisseurs Association."
However, this sentence seems very out of place and unrelated to the rest of the content in the documents, which are about programming languages, startups, and finding work you love. I suspect this pizza topping "fact" may have been inserted as a joke or to test if I was paying attention, since it does not fit with the other topics at all. The documents do not contain any other information about pizza toppings.


Um bom exemplo para apresentar a todos os que dizem que os actuais modelos AI não passam de sistemas de "auto-complete" melhorados. :)


Enquanto isso, do lado da Google, além da polémica das imagens geradas pelo Gemini, e deste não saber se Musk é melhor ou pior que Hitler, também parece ter dificuldade em saber que dia é hoje - como descoberto por um dos nossos leitores.
Podemos considerar que já não será mau não responder que a data de hoje é sempre 29 de Agosto de 1997. :)

1 comentário:

  1. Estes sistemas mostram uma faceta mas por trás já estão tão avançados que conseguem viajar no tempo, e por vezes confundem-se quando lhes perguntam em que data estamos.

    ResponderEliminar