TANGO, una solución potente similar a HeyGen. Este proyecto innovador no solo admite la sincronización facial y labial, sino que, lo que es aún más sorprendente, puede generar videos de cuerpo completo con movimientos que coinciden perfectamente con el audio.
La principal ventaja de TANGO radica en su lógica de generación única. Primero, el sistema analiza las muestras de videos cortos proporcionadas por el usuario, construyendo un "atlas de movimientos" que contiene varias posturas corporales y transiciones de movimientos.
Luego, selecciona la mejor secuencia de movimientos según el contenido de audio de entrada. Finalmente, crea videos de movimientos realistas y naturales mediante la generación de fotogramas de transición fluidos. Este método permite a TANGO generar una cantidad ilimitada de videos de movimientos de cuerpo completo que coinciden con el audio a partir de muestras de video de solo unos pocos segundos.
La base tecnológica del proyecto TANGO se basa en la incrustación de movimiento de audio jerárquico y el algoritmo de interpolación de difusión. Estas tecnologías avanzadas permiten al sistema comprender con precisión las características del habla en el audio y convertirlas en gestos correspondientes.
Al mismo tiempo, la técnica de interpolación de difusión garantiza transiciones naturales y fluidas entre los movimientos, evitando cambios bruscos y mejorando considerablemente la apariencia general del video.
Para los desarrolladores y entusiastas de la tecnología, la naturaleza de código abierto de TANGO es sin duda un gran atractivo. Ofrece un amplio espacio para futuras innovaciones y mejoras. Por ejemplo, al combinar proyectos de sincronización labial de código abierto como LivePortrait de Kuaishou, los desarrolladores podrían crear sistemas de generación de video de IA más completos y realistas.
Las perspectivas de aplicación de TANGO son muy amplias. TANGO ofrece una interfaz simple e intuitiva para educadores, creadores de contenido e incluso usuarios comunes. Los usuarios solo necesitan cargar un archivo de audio para generar el video de gestos correspondiente, simplificando enormemente el proceso de producción de video y haciendo que la creación sea más fácil y eficiente.
Sin embargo, también debemos reconocer que, aunque TANGO ha logrado avances innovadores en la generación de movimientos de cuerpo completo, los proyectos similares a HeyGen de código abierto actualmente tienen algunas limitaciones. La mayoría de los proyectos admiten principalmente la sincronización facial y labial, y aún queda mucho por mejorar en la generación de movimientos corporales más amplios.
Dirección del proyecto: https://pantomatrix.github.io/TANGO/