El equipo de investigación de ByteDance ha desarrollado recientemente un sistema de inteligencia artificial llamado OmniHuman, capaz de transformar una sola fotografía en un video realista que muestra a la persona hablando, cantando y realizando movimientos naturales. Esta tecnología innovadora promete revolucionar los campos del entretenimiento digital y las comunicaciones.

image.png

OmniHuman puede generar videos de cuerpo completo, mostrando los gestos y el dinamismo de la persona mientras habla, superando a los modelos de IA anteriores que solo podían animar la cara o la parte superior del cuerpo. El núcleo de esta tecnología radica en la combinación de múltiples entradas, como texto, audio y movimientos corporales, a través de un método de entrenamiento innovador llamado "entrenamiento condicional completo", que permite a la IA aprender de un conjunto de datos más grande y rico.

El equipo de investigación señala que OmniHuman, entrenado con más de 18.700 horas de datos de video humano, ha mostrado un progreso significativo. La introducción de múltiples señales condicionales (como texto, audio y postura) no solo ha mejorado la calidad de la generación de video, sino que también ha reducido eficazmente el desperdicio de datos.

En un artículo publicado en arXiv, los investigadores mencionan que, a pesar de los notables avances en las técnicas de animación humana de extremo a extremo en los últimos años, los métodos existentes aún presentan limitaciones en la ampliación de su aplicación a gran escala.

El potencial de aplicación de OmniHuman es amplio, pudiendo utilizarse para crear videos de discursos, demostraciones de instrumentos musicales, etc. Tras las pruebas, la tecnología ha superado a los sistemas existentes en varios estándares de calidad, mostrando su rendimiento excepcional. Este desarrollo se produce en un contexto de creciente competencia en la tecnología de generación de video con IA, con empresas como Google, Meta y Microsoft compitiendo activamente en el desarrollo de tecnologías similares.

Sin embargo, aunque OmniHuman ofrece la posibilidad de revolucionar la producción de entretenimiento, la creación de contenido educativo y las comunicaciones digitales, también genera preocupaciones sobre el posible mal uso de los medios sintéticos. El equipo de investigación presentará sus resultados en una próxima conferencia de visión por computadora, aunque aún no se han anunciado la fecha ni la conferencia específica.

Artículo:https://arxiv.org/pdf/2502.01061

Puntos clave:

🌟 OmniHuman es una nueva IA capaz de convertir una sola foto en un video realista de cuerpo completo.

📊 Esta tecnología ha sido entrenada con 18.700 horas de datos de video humano, combinando múltiples señales de entrada para mejorar los resultados de generación.

⚖️ A pesar de su amplio potencial de aplicación, también genera preocupaciones sobre el posible mal uso de los medios sintéticos.