2022/10/06

Google cria vídeos AI a partir de texto

Depois das imagens estáticas do Imagen, a Google revela o Imagen Video capaz de criar vídeos gerados a partir de descrições.

O Imagen da Google faz parte da mais recente geração de AIs capazes de criar imagens impressionantes a partir de uma descrição de texto. Mas, como era de esperar, a Google não quer ficar atrás da Meta nesta área, e já tem resposta ao seu Make-a-Video que permite criar vídeos a partir de descrições.

O Imagen Video também consegue fazer o mesmo tipo de tarefa, transformando uma descrição num curto vídeo de 5 segundos. E a forma como o faz é bastante curiosa e trabalhosa. O modelo AI começa por gerar apenas 16 frames (a 3 fps) com uma resolução incrivelmente reduzida de de 24x48 pixeis. Esse resultado é depois processado através de uma série de outras AI para melhoria da resolução, até acabar com 128 frames (a 24 fps) com resolução HD de 1280x768.

Para um pedido como "Sprouts in the shape of text ‘Imagen’ coming out of a fairytale book", temos o resultado que se segue.

Impressionante, mas a Google não se fica por aqui. O projecto Phenaki de outra equipa leva este conceito ainda mais longe, aplicando-o a descrições mais longas que resultam em verdadeiras curta-metragens, com mais de dois minutos.

Este é o vídeo criado para a descrição:
Lots of traffic in futuristic city. An alien spaceship arrives to the futuristic city. The camera gets inside the alien spaceship. The camera moves forward until showing an astronaut in the blue room. The astronaut is typing in the keyboard. The camera moves away from the astronaut. The astronaut leaves the keyboard and walks to the left. The astronaut leaves the keyboard and walks away. The camera moves beyond the astronaut and looks at the screen. The screen behind the astronaut displays fish swimming in the sea. Crash zoom into the blue fish. We follow the blue fish as it swims in the dark ocean. The camera points up to the sky through the water. The ocean and the coastline of a futuristic city. Crash zoom towards a futuristic skyscraper. The camera zooms into one of the many windows. We are in an office room with empty desks. A lion runs on top of the office desks. The camera zooms into the lion's face, inside the office. Zoom out to the lion wearing a dark suit in an office room. The lion wearing looks at the camera and smiles. The camera zooms out slowly to the skyscraper exterior. Timelapse of sunset in the modern city.

Os resultados ainda são bastante abstractos, mas tendo em conta a rapidez da evolução que se tem assistido nestes sistemas, nem sequer me arrisco a imaginar o que será possível daqui por 5 ou 10 anos.

Sem comentários:

Enviar um comentário (problemas a comentar?)