¡Más real que la vida misma! El nuevo proyecto de ByteDance, Loopy, logra una perfecta sincronización entre el audio y el avatar digital. ¡Por fin se acabó esa horrible sensación de desconexión!

AIbase基地

Publicado elNoticias de IA · 7 minutos de lectura · Sep 5, 2024

3.9k

En la era actual, dominada por la ola digital que inunda el mundo, las imágenes virtuales se han convertido silenciosamente en una parte esencial de nuestra vida diaria.

Sin embargo, los usuarios que suelen trabajar con la generación de videos a partir de imágenes y la sincronización labial se han encontrado con un problema incómodo: por más realista que sea la generación de tu "personaje", al abrir la boca se delata.

Foto de carnet, retrato (1)

Nota de la fuente: Imagen generada por IA, proveedor de servicios de licencias de imágenes Midjourney

En pocas palabras, el sonido y la imagen están completamente desconectados. Cualquiera puede darse cuenta de que la voz no corresponde a la persona que se ve en la imagen, o que el sonido no es el adecuado para esa escena.

¡Ahora, este incómodo problema finalmente tiene solución!

Recientemente, ha surgido una innovadora tecnología llamada LOOPY, que no solo supera las limitaciones de la animación tradicional de personajes virtuales, sino que también aporta al mundo digital una vitalidad sin precedentes.

Esta tecnología, desarrollada conjuntamente por los equipos de investigación de ByteDance y la Universidad de Zhejiang, se basa en un modelo de difusión de video impulsado por audio. A diferencia de las tecnologías anteriores que requerían complejos sistemas de señales espaciales auxiliares, LOOPY solo necesita una imagen y una entrada de audio para generar sorprendentes efectos dinámicos en el personaje virtual.

El núcleo de esta tecnología reside en su exclusivo módulo de captura de información de movimiento a largo plazo. Loopy admite diversos estilos visuales y de audio; es como un coreógrafo experimentado que "dirige" con precisión cada pequeño movimiento del personaje virtual según el ritmo y la emoción del audio. Por ejemplo, acciones no verbales como suspiros, movimientos de cejas y ojos impulsados por las emociones, y movimientos naturales de la cabeza.

Por ejemplo, en este video, los movimientos de los ojos y el cuello de Taylor mientras habla coinciden perfectamente con las expectativas. Al observarla hablar, se percibe de forma natural que así es como debería moverse al hablar. Incluso los sonidos ambientales y de la escena durante la conversación parecen "lógicos".

LOOPY también ofrece resultados sorprendentes con personajes no realistas. Ya sea la expresión sutil de un cantante, los cambios en las cejas y los ojos sincronizados con las emociones, o incluso un suave suspiro, LOOPY lo representa a la perfección.

Más sorprendente aún, puede generar diversos efectos de movimiento para la misma imagen de referencia según el audio, desde apasionados hasta suaves y delicados. Esta flexibilidad ofrece a los creadores un espacio ilimitado para la imaginación.

En aplicaciones reales, LOOPY ha demostrado un rendimiento excepcional. Las pruebas en varios conjuntos de datos del mundo real muestran que no solo supera con creces a los modelos de difusión de retratos impulsados por audio existentes en cuanto a naturalidad, sino que también genera resultados de alta calidad y realismo en diversas situaciones complejas.

Cabe destacar que LOOPY también funciona excepcionalmente bien con retratos de perfil, lo que sin duda impulsará aún más la expresividad de los personajes virtuales.

La aparición de LOOPY ha abierto sin duda una nueva puerta para el mundo virtual. No solo puede destacar en áreas como juegos, producción cinematográfica y realidad virtual, mejorando la experiencia del usuario, sino que también ofrece a los creadores una plataforma creativa más amplia. Con el avance continuo de la tecnología, el potencial de LOOPY se está explorando aún más, y es probable que se convierta en un nuevo referente en el desarrollo futuro de la tecnología de personajes virtuales.

Dirección del proyecto: https://loopyavatar.github.io/

Avatar virtual Sincronización labial LOOPY ByteDance

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Sync Labs lanza Lipsync-2: el primer modelo de sincronización labial cero-shot del mundo

La empresa de tecnología de inteligencia artificial Sync Labs anunció recientemente a través de Twitter el lanzamiento de su último producto, Lipsync-2, un modelo que se considera el primer modelo de sincronización labial cero-shot del mundo. Sin necesidad de entrenamiento o ajuste adicional, conserva el estilo único del orador. Esta tecnología innovadora ofrece mejoras significativas en realismo, expresividad, control, calidad y velocidad, siendo adecuada para videos de personas reales, animaciones y contenido generado por IA. Las características innovadoras de Lipsync-2, según Sync Lab...

Apr 8, 2025

Avance revolucionario en sincronización labial con IA: el nuevo modelo Mirage de Captions crea videos UGC hiperrealistas

Recientemente, el campo de la tecnología de IA ha experimentado un gran avance. Captions ha lanzado oficialmente su nuevo modelo de IA, Mirage, que revoluciona por completo las técnicas tradicionales de sincronización labial y generación de video. Mirage puede analizar guiones o clips de audio y generar en tiempo real videos de estilo UGC (contenido generado por el usuario) con personajes que no existen. La realidad de sus expresiones faciales y lenguaje corporal supera con creces las tecnologías anteriores, marcando el comienzo de una nueva era en la creación de videos con IA. La principal ventaja de Mirage radica en su capacidad de generación "desde cero". No necesita depender de material pregrabado ni de técnicas tradicionales de sincronización labial.

Mar 13, 2025

¡HeyGen de código abierto llega! Heygem: clonación precisa de apariencia y voz con sincronización labial

Mar 10, 2025

ByteDance lanza OmniHuman-1: convierte una foto en un avatar virtual animado y parlante

Imagine: con solo una foto, ver a esa persona hablar, moverse e incluso actuar en cuestión de segundos. Esa es la magia de OmniHuman-1, lanzado por ByteDance. Este modelo de inteligencia artificial, que recientemente se ha vuelto viral en internet, puede generar videos altamente realistas que dan vida a imágenes estáticas. Al combinarlo con fragmentos de audio, logra sincronización labial, movimientos corporales completos y expresiones faciales ricas. A diferencia de las técnicas tradicionales de deepfake, OmniHuman-1 no se limita a reemplazar rostros, sino que puede animar una figura completa.

Feb 11, 2025

2.3k

ByteDance lanza LatentSync, un modelo de sincronización labial de código abierto para una sincronización de labios ultrarrealista

Recientemente, ByteDance lanzó un nuevo framework de sincronización labial llamado LatentSync, diseñado para lograr una sincronización de labios más precisa utilizando un modelo de difusión latente condicionado por audio. Este framework se basa en Stable Diffusion y se ha optimizado para la coherencia temporal. A diferencia de los métodos anteriores basados en la difusión del espacio de píxeles o la generación en dos etapas, LatentSync utiliza un enfoque de extremo a extremo, sin necesidad de una representación intermedia del movimiento, lo que permite modelar directamente la compleja relación entre el audio y la visión. En LatentSync

Jan 6, 2025

5.4k

ESPN está probando un avatar virtual generado por IA llamado FACTS

ESPN está desarrollando un avatar virtual generado por inteligencia artificial llamado FACTS para su programa de fútbol americano universitario de los sábados, SEC Nation. El avatar utilizará información de ESPN Analytics, incluyendo el índice de potencia de fútbol (FPI), estadísticas de jugadores y equipos, y calendarios de partidos, para promover la educación y el entretenimiento en el análisis deportivo. Imagen: ESPN FACTS se describe como el primer estadístico de ESPN, Howie Schwab

Nov 18, 2024

1.1k

ElevenLabs lanza el proyecto open source X-to-Voice: convierte tu cuenta de Twitter en un avatar virtual personalizado con un solo clic

La empresa de inteligencia artificial ElevenLabs ha lanzado recientemente un llamativo proyecto de código abierto llamado 'X-to-Voice'. Esta herramienta analiza de forma inteligente los perfiles de Twitter para generar automáticamente una voz digital y un avatar dinámico que se ajustan a la personalidad del usuario. Este innovador proyecto integra varias tecnologías de vanguardia: la API de diseño de voz desarrollada por ElevenLabs se encarga de la generación de voz, mientras que la herramienta Taedra se ocupa de la creación del avatar dinámico. En cuanto al soporte técnico, el proyecto utiliza Apify para la extracción de datos de perfiles y...

Nov 1, 2024

2.9k

D-ID presenta avatares AI hiperrealistas: reproduce movimientos de cabeza y torso con solo entrenar un video

La plataforma de video de inteligencia artificial D-ID anunció hoy el lanzamiento de dos nuevos avatares virtuales, Express y Premium+, diseñados para mejorar la calidad y eficiencia de la creación de contenido. Cada vez más empresas buscan utilizar avatares de IA más humanos para aliviar la carga de la producción de videos, especialmente en marketing, ventas y atención al cliente. Los nuevos modelos de D-ID buscan destacar en este competitivo mercado. El avatar Express se entrena con solo un minuto de video aproximadamente, lo que permite...

Nov 1, 2024

3.8k

Boletín diario de IA: Alibaba lanza el modelo de documentos DocOwl 1.5; nuevas funciones del editor de imágenes Midjourney disponibles la semana que viene; Viggle AI presenta función de sincronización labial

¡Bienvenido al boletín diario de IA! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más relevantes del campo de la IA, centrados en los desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovaciones en aplicaciones de productos de IA. Obtenga más información sobre los nuevos productos de IA: https://top.aibase.com/1. Entre los recién registrados se incluyen Ling AI de Kuaishou Technology Co., Ltd. y TianGong Image de Kunlun Wanwei Technologies Holdings Co., Ltd., capaces de procesar tablas y gráficos.

Oct 21, 2024

1.0k

Viggle AI lanza una nueva función: permite que los personajes hablen grabando la voz

Viggle AI ha lanzado recientemente una emocionante nueva función que permite a los usuarios hacer que sus personajes hablen grabando su voz, con sincronización labial incluida. Esta tecnología innovadora ofrece a los usuarios un control total sobre la actuación de sus personajes, ya sea cantando o bailando. La aplicación, llamada Viggle, ha ganado mucha atención en las redes sociales por su innovación. Utiliza el avanzado modelo 3D de video base JST-1, ofreciendo una interfaz de usuario sencilla e intuitiva para que los usuarios puedan crear y mezclar videos con facilidad.

Oct 21, 2024

4.9k

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General