La empresa de tecnología de inteligencia artificial Sync Labs anunció recientemente a través de Twitter el lanzamiento de su último producto, Lipsync-2, un modelo aclamado como "el primer modelo de sincronización labial de disparo cero del mundo". Sin necesidad de entrenamiento o ajuste adicional, conserva el estilo único del orador. Esta tecnología innovadora ha logrado mejoras significativas en realismo, expresividad, control, calidad y velocidad, siendo adecuada para videos de personas reales, animaciones y contenido generado por IA.

QQ_1744092971287.png

Características innovadoras de Lipsync-2

Según el mensaje de Twitter publicado por Sync Labs el 1 de abril, el punto clave de Lipsync-2 reside en su capacidad de "disparo cero", es decir, sin necesidad de preentrenamiento para un orador específico, el modelo puede aprender y generar instantáneamente un efecto de sincronización labial que se adapta a su estilo de habla único. Esta característica revoluciona las técnicas tradicionales de sincronización labial que requieren grandes cantidades de datos de entrenamiento, permitiendo a los creadores de contenido aplicar esta tecnología de manera más eficiente.

Además, Sync Labs reveló que Lipsync-2 ha logrado un salto tecnológico en varias dimensiones. Ya sea en videos de personas reales, personajes animados o personajes generados por IA, Lipsync-2 ofrece mayor realismo y expresividad.

Nueva función de control: parámetro de temperatura

Además de la capacidad de disparo cero, Lipsync-2 incorpora una función de control llamada "temperatura". Este parámetro permite a los usuarios ajustar el grado de expresión de la sincronización labial, desde un efecto de sincronización simple y natural hasta un efecto más expresivo y exagerado, satisfaciendo las necesidades de diferentes escenarios. Actualmente, esta función se encuentra en fase de prueba privada y se está implementando gradualmente para los usuarios de pago.

Posibles aplicaciones: educación multilingüe y creación de contenido

En una publicación de Twitter del 3 de abril, Sync Labs mostró posibles aplicaciones de Lipsync-2, afirmando que "destaca por su precisión, estilo y expresividad", y planteando la visión de "hacer que cada conferencia se pueda presentar en todos los idiomas". Esta tecnología no solo se puede utilizar para la traducción de videos y la edición a nivel de palabra, sino que también puede ayudar a la reanimación de personajes, e incluso admite la creación de contenido generado por el usuario (UGC) de IA realista, lo que genera cambios revolucionarios en los campos de la educación, el entretenimiento y el marketing.

Impacto en la industria y expectativas futuras

El lanzamiento de Lipsync-2 ha generado un gran interés en la industria. Sync Labs indicó que el modelo ya está disponible para su prueba en la plataforma fal, y los usuarios pueden acceder a él a través de la biblioteca de modelos de fal. Desde su anuncio el 1 de abril, las conversaciones sobre Lipsync-2 en Twitter han ido en aumento, y muchos usuarios han expresado sus expectativas sobre su potencial de aplicación en diferentes campos.

Como empresa pionera en tecnología de video de inteligencia artificial, Sync Labs demuestra una vez más su liderazgo en innovación con Lipsync-2. Con la implementación gradual de esta tecnología, el umbral para la creación de contenido podría reducirse aún más, mientras que los espectadores disfrutarán de una experiencia audiovisual más natural e inmersiva.