2024/08/05

Google Lens com pesquisas por voz

O Google Lens passa a permitir perguntas por voz referentes às imagens mostradas.

A Google está a começar a tirar partido das capacidades multimodais do Gemini, adicionando a capacidade de pesquisa por voz relativa a imagens no Google Lens.

O Google Lens começou por ser um sistema de pesquisa puramente visual, permitindo identificar objectos, procurar por coisas idênticas, etc. Em 2022 a Google adicionou o multisearch, que permitia refinar as pesquisas usando texto, mas num processo que não era propriamente o mais natural, e que só podia ser feito na sequência da pesquisa automática feita inicialmente pelo Lens. Mas agora, parece ter acertado na fórmula correcta.

O Google Lens permite agora que se faça uma pesquisa por voz referente à imagem apresentada, que acaba por ser idêntico ao comportamento que se tem ao fazer uma pergunta sobre uma imagem num modelo AI como o ChatGPT ou Gemini.
Ou seja, em vez de termos que "suportar" a pesquisa automática inicial, podemos dizer desde logo aquilo que realmente queremos saber sobre a imagem. Por exemplo, numa foto com um automóvel em destaque, que resultaria na identificação da marca ou apresentação de modelos idênticos, podemos em vez disso perguntar quantas pessoas estão na imagem, ou se é uma foto tirada durante o dia, ou qualquer outra questão indirecta sobre a mesma.

Sem comentários:

Enviar um comentário (problemas a comentar?)