2025/10/17

Gemini Live com voz "nativa" para conversas mais naturais

A Google está a fazer chegar o "native audio" ao Gemini Live, que melhora substancialmente a forma como interage com os utilizadores por voz.

A Google começou a expandir o native audio no Gemini Live para Android, que faz com que o seu assistente AI tenha a capacidade de melhor compreender e reagir à voz dos utilizadores.

Inicialmente apresentado em Agosto com promessa de lançamento para as semanas seguintes, o native audio permite ao assistente interpretar elementos da voz humana, como a entoação, ritmo e tom de voz, e reagir em conformidade. Assim, se o utilizador soar mais tenso ou estiver a falar sobre um tema stressante, o Gemini Live poderá responder com um tom mais calmo e equilibrado.

Os utilizadores também podem personalizar a forma como o Gemini fala, escolhendo entre diferentes sotaques (como britânico ou australiano) e ajustando a velocidade da fala. As preferências mantêm-se apenas durante a conversa actual, podendo ser retomadas mais tarde através do histórico do chat e do botão Live.
Os mais recentes modelos AI de voz da Google destacam-se por terem ultrapassado a fase de conversão para texto. Tradicionalmente, o reconhecimento de voz era feito sempre usando o processo: converter a voz para texto, e de seguida fazer a interpretação do texto. Mas neste novo sistema Speech-to-Retrieval (S2R), o modelo dispensa a fase de conversão para texto e tenta inferir directamente qual o intuito pretendido - o que reduz a probabilidade de resultados errados em casos de palavras que poderiam ser mal reconhecidas.

Este novo sistema de reconhecimento de voz S2R já está a ser usado nas pesquisas por voz da Google.

Sem comentários:

Enviar um comentário (problemas a comentar?)