Recientemente, la empresa ByteDance anunció el lanzamiento de un sistema de inteligencia artificial llamado INFP, capaz de hacer que retratos estáticos de personas "hablen" y reaccionen a través de la entrada de audio. A diferencia de las tecnologías tradicionales, INFP no requiere la especificación manual de los personajes que hablan y escuchan; el sistema puede determinar los roles automáticamente según el flujo de la conversación.
El flujo de trabajo de INFP se divide en dos pasos principales. El primero, llamado "imitación de cabeza basada en el movimiento", consiste en que el sistema extrae detalles de videos analizando las expresiones faciales y los movimientos de la cabeza de las personas durante una conversación. Estos datos de movimiento se convierten a un formato utilizable para la animación posterior, permitiendo que las fotos estáticas coincidan con el movimiento de la persona original.
El segundo paso es la "generación de movimiento guiada por audio". El sistema genera patrones de movimiento naturales basándose en la entrada de audio. El equipo de investigación desarrolló un "guía de movimiento", una herramienta que analiza el audio de ambas partes en la conversación para crear patrones de movimiento para hablar y escuchar. Posteriormente, un componente de IA llamado transformador de difusión optimiza gradualmente estos patrones, generando movimientos fluidos y realistas que se ajustan perfectamente al contenido de audio.
Para entrenar eficazmente el sistema, el equipo de investigación también creó un conjunto de datos de conversación llamado DyConv, que recopila más de 200 horas de videos de conversaciones reales. En comparación con las bases de datos de conversación existentes (como ViCo y RealTalk), DyConv presenta ventajas únicas en cuanto a la expresión emocional y la calidad del video.
ByteDance afirma que INFP supera a las herramientas existentes en varios aspectos clave, especialmente en el movimiento de los labios que coincide con el habla, la conservación de las características faciales individuales y la creación de movimientos naturales y diversos. Además, el sistema también funciona excepcionalmente bien al generar videos de solo el oyente de la conversación.
Aunque actualmente INFP solo admite entrada de audio, el equipo de investigación está explorando la posibilidad de ampliar el sistema a imágenes y texto. El objetivo futuro es poder crear animaciones realistas de cuerpo completo de personas. Sin embargo, considerando que esta tecnología podría utilizarse para crear videos falsos y difundir información errónea, el equipo de investigación planea restringir el uso de la tecnología central a instituciones de investigación, de manera similar a la gestión que Microsoft hace de su avanzado sistema de clonación de voz.
Esta tecnología forma parte de la estrategia de IA más amplia de ByteDance. Gracias a sus populares aplicaciones TikTok y CapCut, ByteDance cuenta con una amplia plataforma para la aplicación innovadora de la IA.
Enlace al proyecto:https://grisoon.github.io/INFP/
Puntos clave:
🎤 INFP permite que los retratos estáticos "hablen" mediante audio, determinando automáticamente los roles de la conversación.
🎥 El sistema funciona en dos pasos: primero extrae detalles del movimiento de conversaciones humanas, y luego convierte el audio en patrones de movimiento naturales.
📊 El conjunto de datos DyConv de ByteDance contiene más de 200 horas de videos de conversaciones de alta calidad, lo que ayuda a mejorar el rendimiento del sistema.