VLOGGER
Generación de vídeo humano impulsada por texto y voz a partir de una sola imagen de entrada de una persona.
Producto ComúnVideoGeneración de vídeoSíntesis corporal
VLOGGER es un método para generar vídeos de personas que hablan, impulsados por texto y audio, a partir de una sola imagen de entrada de una persona. Se basa en el éxito de los recientes modelos de difusión generativa. Nuestro método incluye 1) un modelo de difusión aleatorio de persona a movimiento 3D, y 2) una novedosa arquitectura basada en difusión que mejora los modelos de texto a imagen mediante el control temporal y espacial. Este método permite generar vídeos de alta calidad con longitud variable, y es fácilmente controlable mediante expresiones avanzadas de la cara y el cuerpo humano. A diferencia de trabajos anteriores, nuestro método no requiere entrenamiento individual para cada persona, ni depende de la detección y recorte facial, generando imágenes completas (no solo la cara o los labios) y teniendo en cuenta una amplia gama de escenarios necesarios para la comunicación humana correctamente sintetizada (por ejemplo, torso visible o diversidad de identidades corporales).
VLOGGER Situación del tráfico más reciente
Total de visitas mensuales
1606
Tasa de rebote
51.54%
Páginas promedio por visita
1.7
Duración promedio de la visita
00:00:03