2024/03/30

OpenAI apresenta Voice Engine que replica voz com amostra de 15 segundos

A OpenAI revelou o seu Voice Engine, um sistema capaz de recriar vozes realistas a partir de amostras com apenas 15 segundos.

Há muito que existem sistemas de síntese de voz de alta-qualidade, e nos últimos anos surgiram sistemas que permitem replicar as vozes de pessoas - sendo algo que até já está disponível para o público em geral, como o sistema que permite converter mensagens de texto em voz no iOS, usando a voz do utilizador. No entanto, esse processo normalmente obriga a um processo de treino bastante prolongado, que pode demorar longos minutos para captar os elementos da voz, coisa que agora deixa de ser necessário.

Com o Voice Engine da OpenAI basta uma amostra de meros 15 segundos, para que o sistema consiga replicar a voz original de forma quase indistinguível.
No entanto, e para evitar potenciais abusos, por agora o Voice Engine será disponibilizado apenas a parceiros seleccionados da OpenAI, que se comprometem a não usar o sistema para copiar vozes de pessoas sem o seu consentimento, nem a disponibilizar a tecnologia de forma a que utilizadores possam criar as suas próprias vozes.

No entanto, sabendo-se o elevado grau de competição que existe no sector, não será descobido imaginar que em breve surja um modelo AI open-source que tenha capacidades idênticas, e que fique ao alcance de todos.

1 comentário:

  1. Honestamente, não entendo bem este novo modelo. Já existem vários modelos open source que permitem fazer algo semelhante, como o Coqui XTTS, Stylette2, etc.

    ResponderEliminar