¿Recuerdan Loopy, el nuevo proyecto de ByteDance que sorprendió a todos a principios de mes? Este proyecto de sincronización labial, que permite una perfecta coincidencia entre el audio, la expresión facial y las emociones de un avatar digital, ya está oficialmente disponible en Jimeng.

111.jpg

AIbase lo probó, y los resultados son excelentes. Se puede decir que es el servicio de sincronización labial con mejor soporte para chino que existe actualmente.

Anteriormente, los videos de sincronización labial solían tener un problema común: aunque la boca parecía coincidir con el audio, la voz parecía no pertenecer a la persona, creando una sensación de desconexión para el espectador.

El modelo de difusión de video impulsado por audio LOOPY, desarrollado conjuntamente por ByteDance y un equipo de investigación de la Universidad de Zhejiang, resuelve perfectamente este problema.

image.png

A diferencia de las sincronizaciones labiales tradicionales que solo se limitan al movimiento de la boca, Loopy permite que el personaje del video de sincronización labial muestre el tono, las emociones y las expresiones faciales adecuadas al contexto mientras habla o canta. Puede "dirigir" con precisión cada movimiento sutil del avatar virtual, como los movimientos no verbales (suspiros), los movimientos de cejas y ojos impulsados por las emociones y los movimientos naturales de la cabeza.

Actualmente, esta función ya está integrada en el módulo de generación de video de Jimeng, perteneciente a ByteDance:

AIbase subió una foto de una chica para probarlo:

Jimeng ofrece actualmente dos métodos de sincronización labial:

1. Lectura de texto

文本朗读.jpg

La operación de Jimeng es bastante sencilla. Solo necesitas subir la imagen o el video del personaje que quieres que haga la sincronización labial, introducir el texto y seleccionar una voz. AIbase eligió una voz de "mujer fría y elegante", y este es el resultado:

Como se puede ver, el personaje muestra expresiones sutiles mientras habla, y los detalles dinámicos, como las líneas de expresión, son bastante realistas.

2. Subir audio local

Además, no solo puedes hacer que hable, sino que también puedes subir un audio de una canción para que cante:

对口型,图片+本地配音.jpg

AIbase eligió un fragmento de una canción de TikTok que es muy popular recientemente, veamos el resultado:

El resultado es realmente bueno. La sincronización labial es perfecta y la voz no produce una sensación de desconexión, como si fuera la voz original de la chica.

Sin embargo, hay un pequeño problema. La foto de la chica que AIbase eligió no mira al espectador, lo que puede disminuir la sensación de inmersión. Probaré con una foto frontal:

¿Mejor, verdad? Además, el personaje cierra los ojos y mueve la cabeza de forma natural mientras canta.

AIbase también probó una versión masculina, con los siguientes resultados:

¿Sorprendente, verdad? Lo que más sorprendió a AIbase es que la sincronización labial también tiene en cuenta detalles sutiles como la nuez y las cejas, haciendo que el video sea aún más realista.

¡Los interesados pueden probarlo ustedes mismos!

Enlace al producto Jimeng: https://top.aibase.com/tool/jimeng