A Poetiq está a dar que falar, obtendo o melhor resultado de sempre no ARC-AGI-2 e, pela primeira vez, superando o resultado obtido por humanos.
A Poetiq conseguiu deixar todos para trás e atingir um resultado de 60% e 65% no benchmark ARC-AGI-2. Para melhor revelar o salto que isto representa, o Gemini 3 Pro apenas tinha conseguido uma pontuação de 27%, e o GPT 5 Pro ficou-se pelos 13% - sendo que mesmo o mais poderoso Gemini 3 Deep Think só tinha chegado aos 46%.
De forma mais significativa, estes resultados igualam e superam o resultado médio obtido por humanos, que se situa nos 60%.
A Poetiq não usa nenhum modelo específico, em vez disso sendo um sistema genérico de agentes e auto-correcção que usa modelos AI existentes. Neste caso, o Poetiq (Mix) usa os Gemini 3 e GPT-5.1, mas que vai analisando a aprofundando as questões para obter uma resposta com nível superior ao que seria dado de forma directa por esses modelos.
Apesar disso, a Poetiq diz que o seu sistema é bastante mais eficiente, resultando em custos substancialmente mais reduzidos do que o uso directo de modelos como o Gemini 3 Deep Think.
Dito isto, a corrida da AI deverá aquecer ainda mais neste final de ano, pois é esperado que a OpenAI lance o GPT-5.2 nos próximos dias, e Elon Musk prometeu o Grok 4.2 para as próximas semanas, ambos com objectivo de superarem o Gemini 3 da Google.
2025/12/07
Subscrever:
Enviar feedback (Atom)



















Sem comentários:
Enviar um comentário (problemas a comentar?)