As ferramentas de geração de vídeos "deepfake" já existem há muito mas, como era esperado, têm evoluído a ritmo assombroso com a evolução dos modelos AI. O OmniHuman da ByteDance (criadores do TikTok), mostra essa evolução.
A partir de uma única imagem, o sistema consegue criar vídeos realistas e expressivos, que replicam o áudio fornecido. Mais surpreendente, o sistema consegue lidar perfeitamente com coisas tradicionalmente complicadas, como gestos de mãos, e também lida com canções, apresentações, rostos em cenários difíceis (parcialmente cobertos), e não só com imagens reais mas também em diferentes estilos de animação, ou até objectos.
Actualmente, já existem estudos que referem que parte significativa dos conteúdos nas redes sociais tem origem em bots AI; com modelos assim, é fácil antever que não demore muito para que também plataformas como o TikTok e YouTube passem a ser dominados por uma vaga interminável de vídeos de coisas que não são realidade.Excited to present our latest research, OmniHuman.
— Jianwen Jiang (@unseenvie) February 4, 2025
With a single image and audio, it can generate extremely realistic avatar videos at any aspect ratio and body proportion , unlike existing methods limited to specific regions. More details can be found at https://t.co/pKLcWGGNdK pic.twitter.com/bPgosoKuVi
Bastante impressionante!
ResponderEliminar😳😳