2014/01/28

Intel quer reconhecimento de voz sem recorrer à cloud


Hoje em dia é difícil não ficar surpreendido com as capacidades de reconhecimento de voz e interpretação de assistentes digitais como a Siri e o Google Now. No entanto, há ainda muito por fazer e a Intel quer começar por algo que me parece essencial - cortar com a dependência da "cloud" para este tipo de processamento.

Quando se fala para o nosso smartphone, aquilo que dizemos não está a ser reconhecido no próprio equipamento mas sim em potentes servidores remotos para a onde a nossa voz é enviada e interpretada. Isto origina aquelas ligeiras pausas entre aquilo que se diz e a sua transcrição (embora no caso do Google isso seja feito com um atraso reduzido, pois o texto vai aparecendo mesmo enquanto estamos a falar) e - pior ainda - faz com que em caso de não se ter uma ligação de dados... todas estas funcionalidades deixem de funcionar.

No Android já existe um modo experimental de reconhecimento de voz offline; mas a Intel quer promover a potência dos seus novos sistemas mobile (como o Edison) para fazer reconhecimento de voz no próprio equipamento e assim evitando os atrasos e a dependência em servidores remotos.

Os especialistas em reconhecimento de voz dizem-nos que isto é algo que obriga a processamento super-intensivo e bases de dados contendo biliões de amostras; mas a verdade é que há uma década atrás já tínhamos sistemas de reconhecimento de voz que funcionavam nos "pocket PC" de forma bastante razoável, e com hardware e recursos pré-históricos comparados com os dos smartphones actuais. Por isso, não me parece que fosse difícil implementar este tipo de sistema, que até poderia treinar-se/adaptar-se à voz de cada utilizador individualmente por forma a melhorar a taxa de reconhecimento.

Mas venha de lá essa tecnologia, que estou mortinho por poder falar com os meus aparelhos sem estar sujeito a levar com um "não tem ligação à internet" a cada palavra que diga.

2 comentários:

  1. Ainda tenho lá a caixa do VoiceCommand que comprei para os meus PDA na altura, máquinas com velocidades entre os 200 e os 500Mhz, e memória RAM reduzida e partilhada entre memória de programas e memória de armazenamento. O Voice Command permitia sem treino obedecer a um conjunto de comandos complexos, e interagia com text-to-speech. Ao mandar ligar a um contato, se tivesse vários nrs para o mesmo, listava-os e deixava selecionar um, podíamos mandar tocar música, escolher o género e/ou o artista por voz, saber qual o próximo compromisso no Outlook, entre outras coisas. Pessoalmente acho que essa é a tecnologia por detrás dos sistemas da Ford e do grupo Fiat.
    Incompreensivelmente para o Windows Phone a MS recorreu ao Tell Me para os Windows Phone, que deixaram de ter a (totalidade?) do processamento local.

    ResponderEliminar
  2. O que me dava jeito disto era ter um autorádio comandado pela voz. Da minha colecção de milhares de músicas, dizia o título da que queria ouvir... e voilá !

    ResponderEliminar