2025/06/15

Novo estudo sobre AI contradiz conclusões da Apple

Um novo estudo contradiz as conclusões da Apple quanto às limitações dos modelos AI LLM.

Um novo estudo vem contestar as afirmações recentes da Apple de que os grandes modelos de linguagem, como o GPT-4, falham em tarefas de raciocínio complexo. Segundo os investigadores, o problema não estava na capacidade de pensamento dos modelos, mas sim na forma como foram testados, com limites de tokens demasiado restritivos e formatos inadequados.

O estudo original da Apple sugeria que os modelos de AI se desmoronavam em tarefas como a resolução de puzzles como a "Torre de Hanói" ou o "Cruzamento do Rio" à medida que estas se tornavam mais difíceis. Mas o novo trabalho mostra que, quando os modelos podem dar respostas mais compactas, por exemplo, sob a forma de uma função em Lua em vez de explicações passo a passo, conseguem resolver estas tarefas de forma fiável e eficiente.
As falhas apontadas deviam-se, na maioria dos casos, ao facto de os modelos ficarem sem espaço para completar as respostas ou serem penalizados quando o output era cortado ou quando o problema não tinha solução válida. Com formatos mais adequados e uma avaliação justa, o problema desaparece por completo.

Ou seja, aparentemente não é capacidade de raciocínio dos grandes modelos que estava a falhar, mas sim a forma como foram testados que criou a ilusão de falha.

Sem comentários:

Enviar um comentário (problemas a comentar?)