Aberto até de Madrugada: OpenAI apresenta Voice Engine que replica voz com amostra de 15 segundos

A OpenAI revelou o seu Voice Engine, um sistema capaz de recriar vozes realistas a partir de amostras com apenas 15 segundos.

Há muito que existem sistemas de síntese de voz de alta-qualidade, e nos últimos anos surgiram sistemas que permitem replicar as vozes de pessoas - sendo algo que até já está disponível para o público em geral, como o sistema que permite converter mensagens de texto em voz no iOS, usando a voz do utilizador. No entanto, esse processo normalmente obriga a um processo de treino bastante prolongado, que pode demorar longos minutos para captar os elementos da voz, coisa que agora deixa de ser necessário.

Com o Voice Engine da OpenAI basta uma amostra de meros 15 segundos, para que o sistema consiga replicar a voz original de forma quase indistinguível.

OpenAI just launched Voice Engine,
It uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker.
Reference and Generated audio is very close and hard to differentiate.
More details in 🧵 pic.twitter.com/tJRrCO2WZP
— AshutoshShrivastava (@ai_for_success) March 29, 2024

No entanto, e para evitar potenciais abusos, por agora o Voice Engine será disponibilizado apenas a parceiros seleccionados da OpenAI, que se comprometem a não usar o sistema para copiar vozes de pessoas sem o seu consentimento, nem a disponibilizar a tecnologia de forma a que utilizadores possam criar as suas próprias vozes.

No entanto, sabendo-se o elevado grau de competição que existe no sector, não será descobido imaginar que em breve surja um modelo AI open-source que tenha capacidades idênticas, e que fique ao alcance de todos.

2024/03/30

OpenAI apresenta Voice Engine que replica voz com amostra de 15 segundos

1 comentário: