VividTalk
Genera videos de rap realistas con sincronización labial.
Producto ComúnImagenAudio impulsadoGeneración de avatares
VividTalk es una tecnología de generación de avatares impulsada por audio, única en su tipo, basada en un modelo 3D híbrido previo. Es capaz de generar videos de rap realistas con expresiones faciales ricas, posturas de cabeza naturales y sincronización labial. Esta tecnología emplea un marco general de dos etapas que permite generar videos de rap de alta calidad visual con todas las características mencionadas. Específicamente, en la primera etapa, el audio se mapea a una malla mediante el aprendizaje de dos tipos de movimiento (movimiento facial no rígido y movimiento de cabeza rígido). Para el movimiento facial, se utilizan formas y vértices híbridos como representación intermedia para maximizar la capacidad de representación del modelo. Para el movimiento natural de la cabeza, se propone un novedoso código de postura de cabeza aprendible y se emplea un mecanismo de entrenamiento de dos etapas. En la segunda etapa, se propone un VAE de movimiento de doble rama y un generador para convertir la malla en movimiento denso y sintetizar videos de alta calidad fotograma a fotograma. Numerosos experimentos demuestran que VividTalk puede generar videos de rap de alta calidad visual con sincronización labial y un realismo mejorado, superando a los trabajos de vanguardia previos en comparaciones objetivas y subjetivas. El código de esta tecnología se publicará abiertamente después de su publicación.
VividTalk Situación del tráfico más reciente
Total de visitas mensuales
205728
Tasa de rebote
53.28%
Páginas promedio por visita
1.6
Duración promedio de la visita
00:01:05