2024/12/09

AI converte som ambiente em imagens

Investigadores criaram um modelo AI capaz de transformar sons em imagens detalhadas de ruas ou paisagens.

Ainda recentemente vimos um modelo AI capaz de gerar todo o tipo de sons, mas desta vez estamos perante um sistema completamente diferente. Este sistema analisa gravações de áudio para gerar imagens que replicam ambientes reais, mostrando o potencial da inteligência artificial para imitar a capacidade humana de ligar som e visão - de forma idêntica à que um humano tem de visualizar um ambiente através da audição do "som ambiente".

Utilizando dados de áreas urbanas e rurais na América do Norte, Ásia e Europa, a equipa treinou o modelo com clips de áudio de 10 segundos e imagens correspondentes. Os testes mostraram que as imagens criadas pela AI apresentavam fortes semelhanças com fotografias reais, captando com precisão proporções de céu, vegetação e edifícios. Avaliadores humanos conseguiram identificar as imagens correspondentes às gravações de som com 80% de precisão.
O estudo revelou que os sons podem indicar não apenas detalhes espaciais, como condições de iluminação. A AI conseguiu até recriar estilos arquitectónicos, distâncias entre objectos e até inferir elementos atmosféricos e temporais, como cenários diurnos ou nocturnos, a partir de sons de trânsito ou insectos. Isto demonstra que paisagens sonoras contêm uma riqueza de informações multisensoriais que podem aprofundar o entendimento dos ambientes por futuros modelos AI.

Sem comentários:

Enviar um comentário (problemas a comentar?)