2024/12/11

Google apresenta Gemini 2.0 Flash e Project Mariner

A Google não quer que a OpenAI tenha todo o protagonismo a nível de novidades AI neste final de ano, e apresentou o Gemini 2.0 Flash e Project Mariner.

A Google lançou o Gemini 2.0 Flash, o seu mais recente modelo de IA capaz de lidar com texto, imagens e voz. O novo modelo representa uma melhoria significativa em relação ao Gemini 1.5 Flash e posiciona-se como concorrente directo das inovações recentes da OpenAI. Além de gerar conteúdos, o 2.0 Flash pode interagir com aplicações externas, executar código, criar e modificar imagens, analisar fotos, vídeos e gravações de áudio em tempo real, além de responder a perguntas sobre esses conteúdos. A geração de áudio é outro destaque, oferecendo narração personalizável com múltiplos sotaques e idiomas.

Actualmente, o Gemini 2.0 Flash está disponível para testes através da Gemini API e de plataformas como AI Studio e Vertex AI. No entanto, as funcionalidades de geração de imagem e áudio estão limitadas a parceiros com acesso antecipado até ao lançamento mais amplo, previsto para Janeiro. Nos próximos meses, a Google planeia integrar esta tecnologia em ferramentas como Android Studio, Chrome DevTools e Gemini Code Assist.
A par do Gemini 2.0 Flash, a Google apresentou também o Project Mariner, o seu primeiro agente AI capaz de navegar e realizar acções na web, alimentado pelo modelo Gemini. O agente consegue assumir o controlo do Chrome como um humano, movendo o cursor, clicando em botões e preenchendo formulários.

Numa demonstração, o Project Mariner realizou tarefas como criar um carrinho de compras num site de supermercado, pesquisando e adicionando itens. No entanto, (ainda) não se recusa a concluir acções sensíveis, como finalizar compras ou aceitar termos de serviço, garantindo que os utilizadores mantêm o controlo. Apesar de ser lento e exigir que os utilizadores monitorizem as suas acções em tempo real, a Google destaca que estas limitações são intencionais para garantir transparência. O agente processa capturas de ecrã em tempo real, enviando-as para o Gemini, que devolve instruções para serem executadas no computador do utilizador.
O Project Mariner também realiza tarefas como reservar voos, fazer compras e procurar receitas, mas só funciona no separador activo do Chrome, o que significa que os utilizadores precisam de dedicar o ecrã ao agente enquanto este opera. Mas a Google já refere que isto é um indicador de uma "mudança fundamental no paradigma de experiência de utilizador", antevendo que no futuro todas essas acções sejam feitas automaticamente, sem necessidade de ter um ecrã a mostrar isso - e consequentemente, sem que existam olhos humanos a ver publicidade e outros elementos que hoje invadem as páginas web.

Além do Project Mariner, a Google apresentou outros agentes AI, como o Deep Research, concebido para tarefas de investigação complexas em várias etapas, e o Jules, um assistente de programação integrado no GitHub. Estas ferramentas demonstram as ambições da Google no campo da AI, e que está a fazer tudo o que pode para recuperar o tempo que tinha perdido para a OpenAI.

Sem comentários:

Enviar um comentário (problemas a comentar?)