VividTalk
Gera vídeos de rap realistas com sincronização labial.
Produto ComumImagemÁudio-drivenGeração de avatar
O VividTalk é uma tecnologia de geração de avatar impulsionada por áudio, única e baseada em priorização 3D mista. Ele pode gerar vídeos de rap realistas com expressões faciais ricas, poses de cabeça naturais e sincronização labial. A tecnologia emprega uma estrutura universal de duas etapas, que suporta a geração de vídeos de rap de alta qualidade visual com todas as características mencionadas acima. Especificamente, na primeira etapa, o áudio é mapeado para a grade aprendendo dois tipos de movimento (movimento de expressão não rígida e movimento de cabeça rígido). Para o movimento de expressão, formas e vértices mistos são usados como representação intermediária para maximizar a capacidade de representação do modelo. Para o movimento natural da cabeça, propomos um novo código de pose de cabeça aprendível e empregamos um mecanismo de treinamento em duas etapas. Na segunda etapa, propomos um VAE de movimento de dois ramos e um gerador para converter a grade em movimento denso e compor vídeo de alta qualidade quadro a quadro. Amplos experimentos demonstram que o VividTalk pode gerar vídeos de rap de alta qualidade visual com sincronização labial e realce realista, superando trabalhos anteriores de ponta em comparações objetivas e subjetivas. O código da tecnologia será lançado publicamente após a publicação.
VividTalk Situação do Tráfego Mais Recente
Total de Visitas Mensais
205728
Taxa de Rejeição
53.28%
Média de Páginas por Visita
1.6
Duração Média da Visita
00:01:05