Há muito que existem sistemas de síntese de voz de alta-qualidade, e nos últimos anos surgiram sistemas que permitem replicar as vozes de pessoas - sendo algo que até já está disponível para o público em geral, como o sistema que permite converter mensagens de texto em voz no iOS, usando a voz do utilizador. No entanto, esse processo normalmente obriga a um processo de treino bastante prolongado, que pode demorar longos minutos para captar os elementos da voz, coisa que agora deixa de ser necessário.
Com o Voice Engine da OpenAI basta uma amostra de meros 15 segundos, para que o sistema consiga replicar a voz original de forma quase indistinguível.
No entanto, e para evitar potenciais abusos, por agora o Voice Engine será disponibilizado apenas a parceiros seleccionados da OpenAI, que se comprometem a não usar o sistema para copiar vozes de pessoas sem o seu consentimento, nem a disponibilizar a tecnologia de forma a que utilizadores possam criar as suas próprias vozes.OpenAI just launched Voice Engine,
— AshutoshShrivastava (@ai_for_success) March 29, 2024
It uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker.
Reference and Generated audio is very close and hard to differentiate.
More details in 🧵 pic.twitter.com/tJRrCO2WZP
No entanto, sabendo-se o elevado grau de competição que existe no sector, não será descobido imaginar que em breve surja um modelo AI open-source que tenha capacidades idênticas, e que fique ao alcance de todos.
Honestamente, não entendo bem este novo modelo. Já existem vários modelos open source que permitem fazer algo semelhante, como o Coqui XTTS, Stylette2, etc.
ResponderEliminar