A xAI lançou o Grok 3 esta semana e, tal como Elon Musk tinha prometido, tudo indica que se trata do mais poderoso modelo AI do momento, superando até os mais avançados modelos da OpenAI em diversos benchmarks. Mas, alguns funcionários da OpenAI dizem que esses resultados são enganadores e não representam uma comparação justa.
O problema está num gráfico partilhado pela xAI, que indica que Grok 3 Reasoning Beta e Grok 3 mini Reasoning superam o o3-mini-high da OpenAI no teste de matemática AIME 2025. No entanto, investigadores da OpenAI alertaram que a comparação omitiu um pormenor essencial: o "consensus@64" (cons@64), um método que afecta consideravelmente os resultados dos benchmarks.
O cons@64 permite que um modelo tenha 64 tentativas para resolver cada problema, considerando a resposta mais frequente como para a pontuação final. Isto normalmente aumenta as pontuações e pode criar a impressão de que um modelo é superior quando, na realidade, não é o caso. Quando se analisam os resultados do Grok 3 na sua primeira tentativa ("@1"), o o3-mini-high da OpenAI ainda lidera. Além disso, o Grok 3 Reasoning Beta fica ligeiramente atrás do modelo o1 da OpenAI, configurado para desempenho médio, o que levanta dúvidas sobre a alegação da xAI de que o Grok 3 é a "AI mais inteligente do mundo". As acusações da OpenAI não ficaram sem resposta, com o cofundador da xAI, Igor Babushkin, a dizer que são resultados válidos e argumentando que a OpenAI também já publicou gráficos "enganadores" para comparar os seus próprios modelos.
Entretanto, um especialista independente criou um gráfico alternativo que incluindo os resultados cons@64 de todos os modelos, oferecendo uma visão mais transparente do desempenho real de cada AI.Hilarious how some people see my plot as attack on OpenAI and others as attack on Grok while in reality it's DeepSeek propaganda
— Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex) February 20, 2025
(I actually believe Grok looks good there, and openAI's TTC chicanery behind o3-mini-*high*-pass@"""1""" deserves more scrutiny.) https://t.co/dJqlJpcJh8 pic.twitter.com/3WH8FOUfic
Desde que existem benchmarks que existem empresas que não olham a meios para os manipular. Assistimos a isso nos benchmarks gráficos, com diversas empresas a fazerem batota total, detectando quando benchmarks estavam a ser executados e aplicando literalmente overclock nos seus GPUs para obterem melhores resultados, não representando o desempenho que se obteria em circunstâncias reais. Como tal, é também natural que comecem a tornar-se cada vez mais frequentes algumas "optimizações" feitas especificamente para obter bons resultados nos benchmarks AI.
Um ponto importante, e que tem ficado esquecido nestes benchmarks, é que também deveria ser revelado o custo computacional e monetário para obter estes resultados. Será totalmente diferente que um modelo AI consiga obter uma pontuação de "99%" com um processamento que demora horas e custa literalmente milhões de euros, e outro que atinja os 98% mas consiga dar esse resultado em segundos e por alguns cêntimos.
Sem comentários:
Enviar um comentário (problemas a comentar?)