2016/11/23

A.I. da Google já é capaz de ler os lábios melhor que os humanos


Os avanços feitos nos sistemas de inteligência artificial têm sido notáveis, e agora temos mais um exemplo que demonstra a sua superioridade face ao humanos, no que diz respeito a ler os lábios em clips de vídeo.

Os fãs de "2001: Odisseia no Espaço" lembrar-se-ão certamente do momento em que o HAL recorre à leitura dos lábios para saber o que os astronautas estavam a dizer depois de terem silenciado o microfone; pois bem... agora isso já não é ficção.

Um projecto da Universidade de Oxford que recorre à A.I. DeepMind da Google decidiu ver que tal a inteligência artificial se comportava a tentar interpretar o que as pessoas diziam com base apenas em vídeo, e os resultados foram surpreendentes. Enquanto um profissional humano conseguiu transcrever apenas 12.4% das palavras correctamente (de uma variada selecção de clips de vídeo) o sistema automático atingiu os 46.8% - sendo que muitos dos erros que penalizaram este resultado eram erros menores, como a falta de um "s" no fim da palavra.


As potencialidades de tal sistema são imensas, desde as óbvias aplicações nas áreas de legendagem automática (e também tradução) à possibilidade do mesmo ser aplicado como complemento aos sistemas de reconhecimento de voz, permitindo que os mesmos sejam mais fiáveis mesmo em ambientes ruidosos onde o som, só por si, poderia não ser suficiente para permitir um reconhecimento correcto.

... Por outro lado, quem se preocupar com a privacidade terá que aumentar à lista das preocupações a possibilidade de estar a ser "ouvido" mesmo que não tenha nenhum microfone por perto - se por acaso estiver ao alcance de uma teleobjectiva.

3 comentários:

  1. Daqui a pouco dizem que o AI da google chama-se SKYNET! ;)

    ResponderEliminar
  2. Há aí qualquer coisa que nãi bate certo. Estou mais ou menos a par, por razões profissionais de uma pessoa que me é próxima, deste assunto. A leitura dos lábios varia muito de língua para língua porque a maneira como se formam as palavras é diferente. Contudo, sei que em português é possível uma pessoa treinada apanhar cerca de 64% das palavras. Já em inglês a percentagem desce para 35%. Mas isto é leitura labial directa de palavras sem contexto (por exemplo uma lista de palavras aleatória). Quando se lê nos lábios um discurso dentro de um contexto que o receptor conhece, a percentagem de acerto fica muito próxima dos 90%.

    ResponderEliminar
    Respostas
    1. Não, bate precisamente "certo"... (dos "maus resultados" de tentar interpretar segmentos de vídeo seleccionados aleatoriamente sem contexto, e muito certamente nem sempre nas melhores condições)

      Eliminar