Um novo estudo vem contestar as afirmações recentes da Apple de que os grandes modelos de linguagem, como o GPT-4, falham em tarefas de raciocínio complexo. Segundo os investigadores, o problema não estava na capacidade de pensamento dos modelos, mas sim na forma como foram testados, com limites de tokens demasiado restritivos e formatos inadequados.
O estudo original da Apple sugeria que os modelos de AI se desmoronavam em tarefas como a resolução de puzzles como a "Torre de Hanói" ou o "Cruzamento do Rio" à medida que estas se tornavam mais difíceis. Mas o novo trabalho mostra que, quando os modelos podem dar respostas mais compactas, por exemplo, sob a forma de uma função em Lua em vez de explicações passo a passo, conseguem resolver estas tarefas de forma fiável e eficiente.
As falhas apontadas deviam-se, na maioria dos casos, ao facto de os modelos ficarem sem espaço para completar as respostas ou serem penalizados quando o output era cortado ou quando o problema não tinha solução válida. Com formatos mais adequados e uma avaliação justa, o problema desaparece por completo.A follow-up study on Apple's "Illusion of Thinking" Paper is published now.
— Rohan Paul (@rohanpaul_ai) June 12, 2025
Shows the same models succeed once the format lets them give compressed answers, proving the earlier collapse was a measurement artifact.
Token limits, not logic, froze the models.
Collapse vanished… https://t.co/shVGHtWvhD pic.twitter.com/n7XM51KJ7g
Ou seja, aparentemente não é capacidade de raciocínio dos grandes modelos que estava a falhar, mas sim a forma como foram testados que criou a ilusão de falha.


















Sem comentários:
Enviar um comentário (problemas a comentar?)