Tal como se tinha previsto, a OpenAI lançou o Operator, que se torna no seu primeiro "agente AI".
O sistema interage com elementos no ecrã, como botões e campos de texto, imitando a forma como um humano faria tarefas no seu computador. O Operator captura imagens do ecrã do computador e analisa-as usando as capacidades de visão do GPT-4o. De seguida, simula o uso do rato e teclado para clicar, escrever e deslocar-se na página. Enquanto está em funcionamento, o Operator exibe uma janela do browser em miniatura para mostrar as suas acções, enquanto vai descrevendo o que faz no painel lateral - de forma muito idêntica à ferramenta "Computer Use" que a Anthropic já tinha demonstrado há alguns meses.
No entanto, a própria OpenAI relembra que o Operator ainda está em fase experimentar e tem bastantes limitações, enquanto no acesso a sites como a Amazon e Google Maps pode atingir taxas de sucesso perto dos 87%, noutras tarefas essa taxa por cair para menos de 40%, resultando numa experiência que acabará por dar "mais trabalho" do que simplesmente fazer a coisa directamente. Mas, como se sabe, a evolução destes modelos AI está a ser feita a alta-velocidade, e daqui por um ano é de imaginar que este tipo de agentes consiga fazer praticamente tudo o que lhes seja pedido.A research preview of Operator, an agent that can use its own browser to perform tasks for you. pic.twitter.com/wkBBDIlVqj
— OpenAI (@OpenAI) January 23, 2025
Por agora também acaba por ser um pouco inconsequente, pois o Operator apenas está a ser disponibilizado aos subscritores do ChatGPT Pro, que custa $200 por mês, e nos EUA. A OpenAI diz que mais tarde irá expandir o acesso às outras modalidades de subscrição, mas também refere que na UE as coisas poderão ser mais demoradas devido às regras de privacidade (a OpenAI guarda os screenshots durante 3 meses). Para os demais utilizadores, resta o consolo da OpenAI dizer que o ChatGPT gratuito irá ter acesso ao modelo o3-mini.
Sem comentários:
Enviar um comentário (problemas a comentar?)