2026/04/16

Gemini 3.1 Flash TTS com voz mais humana e realista

Com o Gemini 3.1 Flash TTS a Google diz ter atingido novo patamar na geração de voz AI capaz de replicar as emoções humanas.

A Google apresentou o Gemini 3.1 Flash TTS, a nova geração do seu modelo text-to-speech focado em maior controlo e expressividade. O modelo chega com melhorias na qualidade do áudio e permite criar vozes mais naturais, sendo disponibilizada em fase preview para developers, empresas e utilizadores de ferramentas como o Google Vids.

Este é o seu modelo de voz mais avançado até agora, com melhor desempenho em testes de preferência humana e uma combinação equilibrada entre qualidade e custo. O Gemini 3.1 Flash TTS suporta mais de 70 idiomas e inclui funcionalidades como diálogos com múltiplos speakers, tornando-o mais versátil para diferentes tipos de aplicações.

Um dos principais destaques são os novos "audio tags" - aproximados daquilo que se pode usar no Suno para definir as vozes das músicas AI - e que permitem controlar de forma detalhada o estilo, ritmo e entoação da fala através de comandos em linguagem natural. Isto dá aos utilizadores a capacidade de ajustar a entoação e até o comportamento de personagens ao longo de uma conversa, bastando adicionar algo como [dizer com emoção], ou [dizer em modo assustado] (basta explicar o que se pretende, não existem "tags" estritamente definidas).




Nos benchmarks, o Gemini 3.1 Flash TTS fica a poucos pontos da primeira posição, e à frente dos modelos de voz como o ElevenLabs v3.

As vozes geradas incluem a marcação invisível SynthID, permitindo identificar conteúdos criados por AI, como forma de combater o uso abusivo destas tecnologias.

Sem comentários:

Enviar um comentário (problemas a comentar?)