A Microsoft anunciou recentemente o desenvolvimento do VASA-1, uma inovadora ferramenta de inteligência artificial que consegue transformar uma simples imagem estática do rosto de uma pessoa em um vídeo animado dela falando ou cantando. A novidade traz avanços significativos na sincronização labial, permitindo que os movimentos dos lábios se alinhem perfeitamente com o áudio. Além disso, o sistema é capaz de reproduzir uma gama de expressões faciais e movimentos naturais da cabeça, enriquecendo a autenticidade e a vivacidade do resultado final.
A tecnologia emprega um modelo inédito que a Microsoft descreve como “dinâmica facial holística”, operando em um espaço facial latente. Segundo a empresa, este modelo supera significativamente as abordagens anteriores, oferecendo uma representação muito mais realista.
Por enquanto, o VASA-1 está em fase de demonstração de pesquisa, e não há previsões para a sua disponibilização como produto ou através de uma API. A Microsoft enfatiza que o objetivo atual é apenas demonstrar as capacidades do modelo.
O sistema permite ainda ajustes personalizados, como a direção do olhar do personagem, o enquadramento da cabeça e a expressão emocional durante a fala, com opções que incluem neutro, feliz, zangado ou surpreso. Para as demonstrações, a Microsoft utilizou imagens geradas por IA, como as criadas pelo DALL-E 3 ou StyleGAN2, mas também poderiam ser usadas fotografias reais.
A empresa reconhece os riscos potenciais associados ao uso de deepfakes e a desinformação que podem gerar, especialmente ao considerar que figuras públicas como o presidente dos Estados Unidos poderiam ser retratadas de forma inverídica. A Microsoft afirma estar comprometida com o desenvolvimento de tecnologia para detectar tais falsificações e se opõe a qualquer uso de sua ferramenta para criar conteúdo enganoso ou prejudicial.
Embora a tecnologia mostre promessa, a Microsoft alerta que os vídeos gerados ainda apresentam alguns artefatos que os distinguem dos reais. A empresa está ciente da “lacuna” que ainda existe para alcançar total autenticidade, e ressalta que nem todos possuem conhecimento suficiente para distinguir entre um vídeo real e um gerado por IA, o que destaca a importância de continuar refinando a tecnologia.
Fonte: PetaPixel
REDAÇÃO LATITUDE