A Microsoft introduziu um novo modelo de inteligência artificial (IA) capaz de gerar vídeos hiper-realistas de rostos humanos. Chamado de VASA-1, a novidade pode gerar clipes a partir de apenas uma foto ou áudio de fala.
A promessa da empresa são vídeos com movimentos labiais sincronizados, expressões faciais e movimentos da cabeça, tudo para parecerem mais naturais.
Como funciona o VASA-1 da Microsoft
- Na sua página de anúncios de pesquisa, a Microsoft detalhou como funciona o seu modelo de IA em desenvolvimento.
- A empresa afirma que o modelo VASA-1 pode gerar vídeos com resolução 512 x 512 pixels a até 40 FPS.
- O modelo de IA também suporta a geração de vídeos online com baixa latência, destaca a big tech.
Alguns exemplos de vídeos criados com o modelo de IA da Microsoft foram compartilhados no X (antigo Twitter):
Além de renderizar vídeos de até um minuto em alta qualidade a partir de uma única imagem, a Microsoft também destacou a capacidade do VASA-1 de gerar movimentos labiais que correspondam ao arquivo de áudio, bem como expressões faciais.
Preocupação com segurança
A geração de vídeo hiper-realista de pessoas reais com qualquer áudio também levanta uma questão sobre seu uso antiético, especialmente para criar deepfakes.
“Estamos empenhados em desenvolver IA de forma responsável, com o objetivo de promover o bem-estar humano“, acrescentou a empresa em comunicado.