A Google lançou o Gemini 2.0 Flash, o seu mais recente modelo de IA capaz de lidar com texto, imagens e voz. O novo modelo representa uma melhoria significativa em relação ao Gemini 1.5 Flash e posiciona-se como concorrente directo das inovações recentes da OpenAI. Além de gerar conteúdos, o 2.0 Flash pode interagir com aplicações externas, executar código, criar e modificar imagens, analisar fotos, vídeos e gravações de áudio em tempo real, além de responder a perguntas sobre esses conteúdos. A geração de áudio é outro destaque, oferecendo narração personalizável com múltiplos sotaques e idiomas.
Actualmente, o Gemini 2.0 Flash está disponível para testes através da Gemini API e de plataformas como AI Studio e Vertex AI. No entanto, as funcionalidades de geração de imagem e áudio estão limitadas a parceiros com acesso antecipado até ao lançamento mais amplo, previsto para Janeiro. Nos próximos meses, a Google planeia integrar esta tecnologia em ferramentas como Android Studio, Chrome DevTools e Gemini Code Assist.
A par do Gemini 2.0 Flash, a Google apresentou também o Project Mariner, o seu primeiro agente AI capaz de navegar e realizar acções na web, alimentado pelo modelo Gemini. O agente consegue assumir o controlo do Chrome como um humano, movendo o cursor, clicando em botões e preenchendo formulários.Real-time vision is finally here.
— Alvaro Cintas (@dr_cintas) December 11, 2024
You can now stream audio and video with Google’s new Gemini Stream Realtime feature.
It can even see your screen and help you with what you are working on. pic.twitter.com/eBc4Ze72BB
Numa demonstração, o Project Mariner realizou tarefas como criar um carrinho de compras num site de supermercado, pesquisando e adicionando itens. No entanto, (ainda) não se recusa a concluir acções sensíveis, como finalizar compras ou aceitar termos de serviço, garantindo que os utilizadores mantêm o controlo. Apesar de ser lento e exigir que os utilizadores monitorizem as suas acções em tempo real, a Google destaca que estas limitações são intencionais para garantir transparência. O agente processa capturas de ecrã em tempo real, enviando-as para o Gemini, que devolve instruções para serem executadas no computador do utilizador.
O Project Mariner também realiza tarefas como reservar voos, fazer compras e procurar receitas, mas só funciona no separador activo do Chrome, o que significa que os utilizadores precisam de dedicar o ecrã ao agente enquanto este opera. Mas a Google já refere que isto é um indicador de uma "mudança fundamental no paradigma de experiência de utilizador", antevendo que no futuro todas essas acções sejam feitas automaticamente, sem necessidade de ter um ecrã a mostrar isso - e consequentemente, sem que existam olhos humanos a ver publicidade e outros elementos que hoje invadem as páginas web.Introducing Project Mariner: an agent that helps you accomplish complex tasks in your browser 💻✨It’s a research prototype built with Gemini 2.0. Learn more: https://t.co/zWHTUydifK pic.twitter.com/eySyZiBjiT
— labs.google (@labsdotgoogle) December 11, 2024
Além do Project Mariner, a Google apresentou outros agentes AI, como o Deep Research, concebido para tarefas de investigação complexas em várias etapas, e o Jules, um assistente de programação integrado no GitHub. Estas ferramentas demonstram as ambições da Google no campo da AI, e que está a fazer tudo o que pode para recuperar o tempo que tinha perdido para a OpenAI.
Sem comentários:
Enviar um comentário (problemas a comentar?)