2017/05/02

Alexa aprende a sussurrar e falar com entoação humana


A síntese de voz já permite que os computadores falem com vozes de alta qualidade, mas é preciso algo mais para que estas vozes pareçam naturais e humanas; algo que a Amazon adiciona à Alexa com o SSML (Speech Synthesis Markup Language).

Hoje em dia já temos acesso a sistemas de síntese de voz que nos fazem esquecer as vozes robóticas do passado, mas mesmo assim ainda é possível detectar-se facilmente que se trata de uma voz artificial. Quando uma pessoa fala existe todo um conjunto de variações, na tonalidade, ritmo, e ênfase dado a cada palavras; coisas que habitualmente escapam aos sistemas de síntese de voz, que se limitam a seguir regras de dicção bem mais simples.

Com o Speech Synthesis Markup Language a Amazon dá aos developers a capacidade para melhor afinarem a voz da Alexa, permitindo adicionar essa variedade na forma de falar, com mais ênfase em determinadas palavras, a possibilidade de sussurrar algo, ou até de usar um "beep" sobre palavras que se desejem censurar. Existem ainda os "speechcons", que são equivalentes aos emoticons mas em formato sonoro, e que permitem "colorir" uma conversação com determinas expressões ditas da sua própria forma peculiar - de coisas como "Eureka!", "ahem", "yay", etc.

Vamos lá ver se daqui por mais uns anos estes assistentes digitais já podem interagir connosco de forma muito mais natural... e com voz a condizer.

Sem comentários:

Enviar um comentário (problemas a comentar?)

[pub]