Investigadores criaram um modelo AI capaz de transformar sons em imagens detalhadas de ruas ou paisagens.
Ainda recentemente vimos um modelo AI capaz de gerar todo o tipo de sons, mas desta vez estamos perante um sistema completamente diferente. Este sistema analisa gravações de áudio para gerar imagens que replicam ambientes reais, mostrando o potencial da inteligência artificial para imitar a capacidade humana de ligar som e visão - de forma idêntica à que um humano tem de visualizar um ambiente através da audição do "som ambiente".
Utilizando dados de áreas urbanas e rurais na América do Norte, Ásia e Europa, a equipa treinou o modelo com clips de áudio de 10 segundos e imagens correspondentes. Os testes mostraram que as imagens criadas pela AI apresentavam fortes semelhanças com fotografias reais, captando com precisão proporções de céu, vegetação e edifícios. Avaliadores humanos conseguiram identificar as imagens correspondentes às gravações de som com 80% de precisão.
O estudo revelou que os sons podem indicar não apenas detalhes espaciais, como condições de iluminação. A AI conseguiu até recriar estilos arquitectónicos, distâncias entre objectos e até inferir elementos atmosféricos e temporais, como cenários diurnos ou nocturnos, a partir de sons de trânsito ou insectos. Isto demonstra que paisagens sonoras contêm uma riqueza de informações multisensoriais que podem aprofundar o entendimento dos ambientes por futuros modelos AI.
Sem comentários:
Enviar um comentário