2016/10/19

Reconhecimento de voz já está ao nível dos humanos - diz Microsoft


Os tempos em que os sistemas de reconhecimento de voz eram sinónimo de palavras completamente trocadas parece terem chegado ao fim, e a Microsoft diz que a sua tecnologia de reconhecimento de voz já está ao nível dos humanos... ou superior.

O reconhecimento de voz é uma tecnologia que há décadas alimenta a imaginação dos utilizadores, e que aos poucos se vai popularizando entre mais e mais pessoas. Se noutros tempos era algo que podia ser utilizado apenas em situações mais específicas (por exemplo, para pessoas com mobilidade reduzida que preferissem falar a escrever num teclado) e que obrigava a sessões de treino para reconhecer a voz de um único utilizador, actualmente é algo que está ao alcance de um toque num botão nos nossos smartphones e que pode contar com todo o poder das "clouds" para maior eficiência. Aliás, basta prestar um pouco mais de atenção ao processo (por exemplo, na pesquisa por voz da Google) para se ver que palavras que são inicialmente reconhecidas de forma errada são corrigidas logo de seguida tendo em conta o contexto da frase.

Com este anúncio de que o reconhecimento de voz está ao nível dos humanos, ao ponto de até cometer menos erros na transcrição de conversas que um profissional, apenas se comprova que a utilização da voz como forma de interacção com os computadores se irá tornar cada vez mais importante - e indirectamente promover uma alteração profunda a nível dos interfaces e dos próprios dispositivos. Coisas que se poderiam considerar essenciais, como ecrãs e teclados, poderão ser dispensados, e os dispositivos mobile do futuro poderão converter-se em simples auriculares que nos permitam ouvir e falar e, caso necessário, apresentar informação visual em qualquer ecrã que se tenha por perto.

... Por outro lado não deixará de ser caricato que, no caso de um destes sistemas de reconhecimento de voz não reconhecer correctamente algo que seja dito, isso poder significar que o problema não está no sistema... mas sim no utilizador que não sabe falar direito! :)

2 comentários:

  1. Neste momento a maior dificuldade reside na correcta captação do som pêlos microfones, sobretudo em ambientes ruidosos. Isso faz-se com soluções de beamforming que ainda são algo caras.

    ResponderEliminar
  2. Quer dizer em inglês americano. A Cortana nem sequer está disponível em português de Portugal.

    ResponderEliminar