2017/03/12

IBM diz já ter reconhecimento de voz ao nível dos humanos


Não há nada pior do que ter um sistema de reconhecimento de voz que continuamente insiste em trocar palavras, mas a IBM diz que finalmente chegou ao patamar em que o seu sistema é capaz de reconhecer voz ao mesmo nível de uma pessoa real.

O ano passado a IBM anunciava ter atingido o recorde de reconhecimento de voz com apenas 6.9% de taxa de erro, mas este ano esse valor foi melhorado e situa-se agora nos 5.5% - um valor que se aproxima bastante da taxa de erro de um humano, que se estima estar nos 5.1%.

Aliás, relativamente a esta comparação com os humanos a IBM aproveita para rectificar alguns valores, pois a MS há alguns meses disse que o seu sistema, que tinha atingido os 5.9% tinha ficado ao nível de um humano. Segundo a IBM esse valor de 5.9% é demasiado generoso, e que na realidade a taxa de erro de um humano será de apenas 5.1%. Isto, para um tipo de conversa que, embora apresentando algumas dificuldades, ainda não é a mais difícil que está disponível para testar estes sistemas.

Noutro conjunto de gravações consistindo em conversas genéricas de tópicos diversificados, a IBM ficou-se pelos 10.3%, quando um ouvinte humano se situará nos 6.8%. Ainda assim continua a ser um valor recorde que demonstra o quanto se tem avançado nesta área.

... Convém é apenas não se esquecerem de que há inúmeras línguas diferentes espalhadas pelo mundo, e que para além disso há todo um conjunto de diferentes pronúncias que também pode baralhar completamente os sistemas de reconhecimento de voz. Por isso... penso que ainda haverá muito pela frente, até que estas reduzidas taxas de erro se possam aplicar às palavras faladas por todas as pessoas.

Sem comentários:

Enviar um comentário (problemas a comentar?)

[pub]