VLOGGER
Geração de vídeo humano impulsionada por texto e voz, a partir de uma única imagem de entrada de uma pessoa.
Produto ComumVídeoGeração de vídeoSíntese corporal
O VLOGGER é um método para gerar vídeos de humanos falando, impulsionados por texto e áudio, a partir de uma única imagem de entrada de uma pessoa. Ele se baseia no sucesso recente de modelos de difusão generativa. Nosso método inclui 1) um modelo de difusão estocástico pessoa-para-movimento 3D e 2) uma arquitetura inovadora baseada em difusão que aumenta os modelos de texto para imagem através do controle temporal e espacial. Este método é capaz de gerar vídeos de alta qualidade com duração variável e altamente controlável através de expressões avançadas de rosto e corpo humano. Diferentemente de trabalhos anteriores, nosso método não requer treinamento individual para cada pessoa, nem depende da detecção e recorte de rostos, gerando imagens completas (e não apenas rosto ou lábios) e considerando uma ampla gama de cenários necessários para a comunicação humana corretamente sintetizada (por exemplo, tronco visível ou identidades corporais diversas).
VLOGGER Situação do Tráfego Mais Recente
Total de Visitas Mensais
1606
Taxa de Rejeição
51.54%
Média de Páginas por Visita
1.7
Duração Média da Visita
00:00:03