A nossa capacidade de conseguir ouvir uma pessoa num ambiente cheio de ruído com outras pessoas a falar começa a estar ao alcance dos sistemas de reconhecimento de voz, como a Google demonstrou com o seu novo sistema.
Este sistema de diferenciação de vozes da Google tem resultados impressionantes, que são em parte conseguidos com a combinação da análise de som e de vídeo, ao estilo do que uma pessoa faria nessas situações. Olhar para a pessoa que está a falar ajuda-nos a perceber o que está a dizer num ambiente ruidoso, e aqui é precisamente isso que acontecer... mas com as vantagens das ferramentas digitais.
Por exemplo, num vídeo com duas pessoas a falar em simultâneo, é possível escolhermos ouvir apenas uma delas, o que permite criar transcrições que de outra forma seriam impossíveis de fazer com as duas vozes em simultâneo. Mas as aplicações são bastante mais vastas: a Google apresenta exemplos como a de uma pessoa a fazer uma videoconferência num local ruidoso, e com este sistema podendo "silenciar" o ruído e transmitir apenas a sua voz; ou de uma gravação de vídeo numa cafetaria também deixar-nos com a voz mais clara do interlocutor.
... Fico a aguardar que esta tecnologia seja aplicada às apps de videochamadas... e assim poderia ser que se tornassem mais práticas de fazer em ambientes ruidosos. :)
Sem comentários:
Enviar um comentário (problemas a comentar?)