2024/06/10

Câmaras "biológicas" aceleram detecção de pessoas e objectos

Investigadores da Universidade de Zurique criaram um novo sistema que permite a detecção de coisas de forma bastante mais rápida usando câmaras, que se tornam particularmente de interesse para sistemas de condução autónoma.

Enquanto alguns fabricantes têm optado por adicionar o máximo de sensores possíveis nos seus automóveis, outros - como a Tesla - têm seguido um caminho oposto, removendo coisas como radares, sensores ultra-sónicos, e até os sensores de chuva, dizendo que as câmaras são suficientes. Ora, essa é uma aposta que desde logo vem acompanhada por algumas limitações técnicas, mas que alguns investigadores estão a tentar superar inspirando-se na forma como a biologia processa a informação visual.

Usar câmaras para algo como a condução autónoma implica que se deva reduzir ao máximo a latência entre aquilo que se vê e a acção que deve ser tomada. Num sistema tradicional, assumindo algo como câmaras de 45 fps (como as que se são usadas pela Tesla), significa que uma imagem demorará 22 ms a ser captada, demorando mais alguns ms a ser transferida para o sistema de processamento, e podendo demorar mais 100 - 500 ms a ser processada, com os objectos a serem reconhecidos (pessoas, veículos, sinais de trânsito, etc.) Pode não parecer muito, mas considerando que se pode tratar de um peão ou ciclista em movimento, e de um automóvel a circular a 50 km/h, essas fracções de segundo traduzem-se em quase uma dezena de metros percorrida, que pode significar uma colisão antes sequer do sistema ter tido capacidade de reagir.

Uma das possibilidades de reduzir esta latência pode passar pelo uso de câmaras de alta-velocidade. Uma câmara de 1000 fps poderia captar uma imagem em apenas 1 ms, mas isso obrigaria a que se tivesse um sistema de processamento bastante mais poderoso (e com custos muito superiores). Pelo que, em alternativa, esta equipa está a seguir uma abordagem mais biológica, seguindo a forma como a maioria dos animais trata a informação visual: processando as alterações da imagem.

Esta abordagem não é completamente nova, e há anos que temos empresas a fazerem coisas idênticas, como mostra o seguinte vídeo da PROPHESEE Metavision Technologies:


Em vez de lidar com todos os pixeis de uma imagem, estes sistemas focam-se nos pixeis em que há alterações. E desta forma, podem fazer processamento de forma mais eficiente, a maior velocidade, e sem necessidade de transferir uma enorme quantidade de dados. A equipa diz que, usando este método, ficam com uma câmara que pode detectar um peão em apenas 14 ms, antes sequer de um só frame (22 ms) ter sido recolhido usando uma câmara convencional.

Para lidar com as lacunas deste método (não detectar coisas estáticas), o sistema usa uma abordagem híbrida, em combinação com sistema de detecção tradicional mais lento. Com os resultados de ambos os métodos a serem usados para refinar as zonas a pesquisar de forma mais eficiente.

Os investigadores dizem que o sistema final apresenta resultados equivalentes a usar-se uma câmara de 5000 fps, mas sem necessidade de usar essas câmaras dispendiosas ou de ter hardware super-poderoso para processar tal quantidade de dados.

Sem comentários:

Enviar um comentário (problemas a comentar?)