¡Despegue de los avatares digitales! La función de sincronización labial de Loopy de ByteDance ya está disponible en Jiemong, con expresiones y emociones que se adaptan al contexto

AIbase基地

Publicado elNoticias de IA · 6 minutos de lectura · Sep 23, 2024

2.3k

¿Recuerdan Loopy, el nuevo proyecto de ByteDance que sorprendió a todos a principios de mes? Este proyecto de sincronización labial, que permite una perfecta coincidencia entre el audio, la expresión facial y las emociones de un avatar digital, ya está oficialmente disponible en Jimeng.

AIbase lo probó, y los resultados son excelentes. Se puede decir que es el servicio de sincronización labial con mejor soporte para chino que existe actualmente.

Anteriormente, los videos de sincronización labial solían tener un problema común: aunque la boca parecía coincidir con el audio, la voz parecía no pertenecer a la persona, creando una sensación de desconexión para el espectador.

El modelo de difusión de video impulsado por audio LOOPY, desarrollado conjuntamente por ByteDance y un equipo de investigación de la Universidad de Zhejiang, resuelve perfectamente este problema.

A diferencia de las sincronizaciones labiales tradicionales que solo se limitan al movimiento de la boca, Loopy permite que el personaje del video de sincronización labial muestre el tono, las emociones y las expresiones faciales adecuadas al contexto mientras habla o canta. Puede "dirigir" con precisión cada movimiento sutil del avatar virtual, como los movimientos no verbales (suspiros), los movimientos de cejas y ojos impulsados por las emociones y los movimientos naturales de la cabeza.

Actualmente, esta función ya está integrada en el módulo de generación de video de Jimeng, perteneciente a ByteDance:

AIbase subió una foto de una chica para probarlo:

Jimeng ofrece actualmente dos métodos de sincronización labial:

1. Lectura de texto

文本朗读.jpg

La operación de Jimeng es bastante sencilla. Solo necesitas subir la imagen o el video del personaje que quieres que haga la sincronización labial, introducir el texto y seleccionar una voz. AIbase eligió una voz de "mujer fría y elegante", y este es el resultado:

Como se puede ver, el personaje muestra expresiones sutiles mientras habla, y los detalles dinámicos, como las líneas de expresión, son bastante realistas.

2. Subir audio local

Además, no solo puedes hacer que hable, sino que también puedes subir un audio de una canción para que cante:

对口型，图片+本地配音.jpg

AIbase eligió un fragmento de una canción de TikTok que es muy popular recientemente, veamos el resultado:

El resultado es realmente bueno. La sincronización labial es perfecta y la voz no produce una sensación de desconexión, como si fuera la voz original de la chica.

Sin embargo, hay un pequeño problema. La foto de la chica que AIbase eligió no mira al espectador, lo que puede disminuir la sensación de inmersión. Probaré con una foto frontal:

¿Mejor, verdad? Además, el personaje cierra los ojos y mueve la cabeza de forma natural mientras canta.

AIbase también probó una versión masculina, con los siguientes resultados:

¿Sorprendente, verdad? Lo que más sorprendió a AIbase es que la sincronización labial también tiene en cuenta detalles sutiles como la nuez y las cejas, haciendo que el video sea aún más realista.

¡Los interesados pueden probarlo ustedes mismos!

Enlace al producto Jimeng: https://top.aibase.com/tool/jimeng

Loopy Sincronización labial ByteDance AIbase

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Sync Labs lanza Lipsync-2: el primer modelo de sincronización labial cero-shot del mundo

La empresa de tecnología de inteligencia artificial Sync Labs anunció recientemente a través de Twitter el lanzamiento de su último producto, Lipsync-2, un modelo que se considera el primer modelo de sincronización labial cero-shot del mundo. Sin necesidad de entrenamiento o ajuste adicional, conserva el estilo único del orador. Esta tecnología innovadora ofrece mejoras significativas en realismo, expresividad, control, calidad y velocidad, siendo adecuada para videos de personas reales, animaciones y contenido generado por IA. Las características innovadoras de Lipsync-2, según Sync Lab...

Apr 8, 2025

Avance revolucionario en sincronización labial con IA: el nuevo modelo Mirage de Captions crea videos UGC hiperrealistas

Recientemente, el campo de la tecnología de IA ha experimentado un gran avance. Captions ha lanzado oficialmente su nuevo modelo de IA, Mirage, que revoluciona por completo las técnicas tradicionales de sincronización labial y generación de video. Mirage puede analizar guiones o clips de audio y generar en tiempo real videos de estilo UGC (contenido generado por el usuario) con personajes que no existen. La realidad de sus expresiones faciales y lenguaje corporal supera con creces las tecnologías anteriores, marcando el comienzo de una nueva era en la creación de videos con IA. La principal ventaja de Mirage radica en su capacidad de generación "desde cero". No necesita depender de material pregrabado ni de técnicas tradicionales de sincronización labial.

Mar 13, 2025

¡HeyGen de código abierto llega! Heygem: clonación precisa de apariencia y voz con sincronización labial

Mar 10, 2025

ByteDance lanza LatentSync, un modelo de sincronización labial de código abierto para una sincronización de labios ultrarrealista

Recientemente, ByteDance lanzó un nuevo framework de sincronización labial llamado LatentSync, diseñado para lograr una sincronización de labios más precisa utilizando un modelo de difusión latente condicionado por audio. Este framework se basa en Stable Diffusion y se ha optimizado para la coherencia temporal. A diferencia de los métodos anteriores basados en la difusión del espacio de píxeles o la generación en dos etapas, LatentSync utiliza un enfoque de extremo a extremo, sin necesidad de una representación intermedia del movimiento, lo que permite modelar directamente la compleja relación entre el audio y la visión. En LatentSync

Jan 6, 2025

5.4k

Boletín diario de IA: Alibaba lanza el modelo de documentos DocOwl 1.5; nuevas funciones del editor de imágenes Midjourney disponibles la semana que viene; Viggle AI presenta función de sincronización labial

¡Bienvenido al boletín diario de IA! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más relevantes del campo de la IA, centrados en los desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovaciones en aplicaciones de productos de IA. Obtenga más información sobre los nuevos productos de IA: https://top.aibase.com/1. Entre los recién registrados se incluyen Ling AI de Kuaishou Technology Co., Ltd. y TianGong Image de Kunlun Wanwei Technologies Holdings Co., Ltd., capaces de procesar tablas y gráficos.

Oct 21, 2024

1.0k

Viggle AI lanza una nueva función: permite que los personajes hablen grabando la voz

Viggle AI ha lanzado recientemente una emocionante nueva función que permite a los usuarios hacer que sus personajes hablen grabando su voz, con sincronización labial incluida. Esta tecnología innovadora ofrece a los usuarios un control total sobre la actuación de sus personajes, ya sea cantando o bailando. La aplicación, llamada Viggle, ha ganado mucha atención en las redes sociales por su innovación. Utiliza el avanzado modelo 3D de video base JST-1, ofreciendo una interfaz de usuario sencilla e intuitiva para que los usuarios puedan crear y mezclar videos con facilidad.

Oct 21, 2024

5.0k

¡Impresionante! La API de Kuaishou Kelin se abre completamente y lanza la función de "sincronización labial"

Recientemente, la IA Kelin de Kuaishou ha recibido una importante actualización, abriendo oficialmente su servicio de API. Esta actualización, la décima desde el lanzamiento del producto, es rica en contenido y funciones potentes, incluyendo la generación de video, la generación de imágenes, la prueba virtual, etc. Los usuarios pueden realizar pedidos fácilmente por sí mismos, sin necesidad de un complicado proceso de solicitud. La nueva función más destacada es la "sincronización labial". Esta función es muy interesante; los usuarios pueden subir su propia grabación de voz o canción al video de personaje generado por la IA Kelin, y el sistema sincronizará automáticamente el audio con el personaje del video.

Oct 1, 2024

6.4k

Boletín diario de IA: Cuenta pública integrada con la IA inteligente de Tencent; función de sincronización labial de Byte Loopy en Dream soon; lanzamiento de la nueva interfaz de usuario de PixVerse; lanzamiento de la zona especializada en AIGC de la comunidad Alibaba Cloud Magic Hub

¡Bienvenido al boletín diario de IA! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más destacados del campo de la IA, centrados en los desarrolladores, para ayudarle a comprender las tendencias tecnológicas y conocer las aplicaciones de productos de IA innovadores. Información sobre nuevos productos de IA: https://top.aibase.com/1、 ¡Las personas digitales despegan! La evaluación eficaz del rendimiento de la IA se convertirá en un reto importante en el futuro.

Sep 23, 2024

1.1k

D-ID lanza herramienta de traducción de video con IA: clonación de voz y sincronización labial, compatible con 30 idiomas

D-ID ha lanzado recientemente AI Video Translate, una innovadora herramienta de traducción de video con IA que traduce el contenido de video a múltiples idiomas, clona la voz del narrador y ajusta la sincronización labial para garantizar una perfecta coincidencia entre la traducción y las imágenes. Esta herramienta admite la renderización masiva de 29 idiomas y cuenta con una interfaz fácil de usar, lo que la hace accesible para cualquier persona. Con esta tecnología, D-ID ayuda a sus clientes a promocionar sus campañas de marketing, entretenimiento y redes sociales a nivel mundial, ahorrando costes de localización. El lanzamiento de esta tecnología supone un gran avance para las pequeñas empresas...

Aug 22, 2024

5.2k

Boletín diario de IA: Claude 3 admite ajuste fino para Haiku; Heygen lanza herramienta de sincronización labial; Baidu afirma que el nivel de seguridad de RoboTaxi se acerca al del avión C919

¡Bienvenido al boletín diario de IA! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más relevantes del campo de la IA, con enfoque en los desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovaciones en las aplicaciones de IA. Más información sobre nuevos productos de IA: https://top.aibase.com/1、Anthropic anuncia que Claude 3 Haiku admite ajuste fino Anthropic ha anunciado que los usuarios ahora pueden ajustar finamente el modelo más reciente, Claude 3, en Amazon Bedrock.

Jul 12, 2024

320

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General