2014/05/06

Google veio a Portugal explicar o reconhecimento de voz

O Google veio a Portugal dar-nos a conhecer como está a decorrer o desenvolvimento dos sistemas de reconhecimento de voz - que muito gostaríamos de ver aplicados ao Google Now em Português - e o nosso incansável Luis Costa não perdeu a oportunidade para escutar e fazer ouvir a sua voz, e agora conta-nos como foi.


A concorrência tem as suas vantagens. O facto da Apple ter lançada a Siri obrigou a Google a empenhar-se decisivamente no desenvolvimento do Google Now, e o aparecimento da Cortana nos Windows Phones só pode vir a ajudar ainda mais a que estes sistemas de apoio ao utilizador ganhem cada vez mais funcionalidades, e sejam mais eficientes.

Desconheço a situação relativamente à proposta da Microsoft, e a Siri continua a ignorar o português. E então Google Now e a língua portuguesa? Até agora não temos tido grandes notícias, mas parece que o panorama está a mudar. A Google trouxe alguns dos seus especialistas em reconhecimento de voz a Lisboa, e tivemos oportunidade de nos sentar com eles e assistir a uma apresentação sobre o reconhecimento de voz.

A forma de pesquisar está a mudar, muito devido aos equipamentos móveis. Ciente deste facto, o gigante americano está apostado em desenvolver a tecnologia ligada à pesquisa. Esta deixou de ser apenas a procura por palavras, passando a ser um conjunto de ferramentas que funcionam em background, e relacionam os termos de pesquisa com os dados já existentes.


Os mercados emergentes são também uma das razões que justificam uma aposta firme nos serviços de reconhecimento de voz. Muitos dos utilizadores estão nesta altura a tomar o primeiro contacto com a tecnologia, e por isso optam pela via mais simples, a utilização dos comandos de voz.

Os representantes da Google explicaram-nos com algum detalhe como funciona o sistema de reconhecimento de voz.


Como em todos os grandes problemas, há que dividi-lo em blocos mais pequenos e fáceis de gerir. Neste caso, o problema é decomposto em três áreas: idioma, léxico e acústica.

A primeira recorre à estatística para identificar as frases mais comuns, a segunda faz a decomposição por palavras e fonemas, e a terceira por fim, identifica qual o fonema mais provável para cada segmento de áudio.

Nesta altura, o Inglês (US) já representa menos de 50% do tráfego. A massificação dos equipamentos Android levou a que 37 outros idiomas tenham já superado os 50% do tráfego, o que indica uma clara mudança nos hábitos de utilização do smartphone, os quais forçam também a Google a abordar a questão de outra forma.


A Google estima que com cerca de 300 idiomas conseguirá cobrir 99% da população. A estratégia passa por trabalhar à volta de 80 (que levantam menos problemas) e depois analisar o trabalho desenvolvido e partir para os restantes 220, levando o reconhecimento de voz a todo o mundo.

O facto de as API estarem disponíveis, permitem que os programadores possam fazer uso das mesmas nas suas aplicações, divulgando o serviço, e ao mesmo tempo contribuindo para que a sua utilização passe a ser tão normal como a escrita o é hoje em dia.

O futuro passa por estabelecer uma conversação com o utilizador. No que respeita a Portugal teremos de aguardar pelos desenvolvimentos que estão a ser feitos no português do Brasil, que representa um mercado bem mais vasto e apetecível, mas que inevitavelmente irão contribuir para o reconhecimento do "nosso" português.

Sendo que a principal fonte de receita do Google é a publicidade, coloca-se também a questão: quanto tempo demorará até que se comece a levar com publicidade nesta área do reconhecimento de voz? Mas isso é algo que o Google não quer abordar por agora, preferindo primeiro apostar na qualidade do seu reconhecimento de voz em todas as línguas, e depois... logo se verá.

Sem comentários:

Enviar um comentário