ByteDance lanza OmniHuman: generación de videos dinámicos realistas de cuerpo completo a partir de una sola foto

El equipo de investigación de ByteDance ha desarrollado recientemente un sistema de inteligencia artificial llamado OmniHuman, capaz de transformar una sola fotografía en un video realista que muestra a la persona hablando, cantando y realizando movimientos naturales. Esta tecnología innovadora promete revolucionar los campos del entretenimiento digital y las comunicaciones.

OmniHuman puede generar videos de cuerpo completo, mostrando los gestos y el dinamismo de la persona mientras habla, superando a los modelos de IA anteriores que solo podían animar la cara o la parte superior del cuerpo. El núcleo de esta tecnología radica en la combinación de múltiples entradas, como texto, audio y movimientos corporales, a través de un método de entrenamiento innovador llamado "entrenamiento condicional completo", que permite a la IA aprender de un conjunto de datos más grande y rico.

El equipo de investigación señala que OmniHuman, entrenado con más de 18.700 horas de datos de video humano, ha mostrado un progreso significativo. La introducción de múltiples señales condicionales (como texto, audio y postura) no solo ha mejorado la calidad de la generación de video, sino que también ha reducido eficazmente el desperdicio de datos.

En un artículo publicado en arXiv, los investigadores mencionan que, a pesar de los notables avances en las técnicas de animación humana de extremo a extremo en los últimos años, los métodos existentes aún presentan limitaciones en la ampliación de su aplicación a gran escala.

El potencial de aplicación de OmniHuman es amplio, pudiendo utilizarse para crear videos de discursos, demostraciones de instrumentos musicales, etc. Tras las pruebas, la tecnología ha superado a los sistemas existentes en varios estándares de calidad, mostrando su rendimiento excepcional. Este desarrollo se produce en un contexto de creciente competencia en la tecnología de generación de video con IA, con empresas como Google, Meta y Microsoft compitiendo activamente en el desarrollo de tecnologías similares.

Sin embargo, aunque OmniHuman ofrece la posibilidad de revolucionar la producción de entretenimiento, la creación de contenido educativo y las comunicaciones digitales, también genera preocupaciones sobre el posible mal uso de los medios sintéticos. El equipo de investigación presentará sus resultados en una próxima conferencia de visión por computadora, aunque aún no se han anunciado la fecha ni la conferencia específica.

Artículo:https://arxiv.org/pdf/2502.01061

Puntos clave:
🌟 OmniHuman es una nueva IA capaz de convertir una sola foto en un video realista de cuerpo completo.
📊 Esta tecnología ha sido entrenada con 18.700 horas de datos de video humano, combinando múltiples señales de entrada para mejorar los resultados de generación.
⚖️ A pesar de su amplio potencial de aplicación, también genera preocupaciones sobre el posible mal uso de los medios sintéticos.

Noticias de IA

ByteDance lanza OmniHuman: generación de videos dinámicos realistas de cuerpo completo a partir de una sola foto

AIbase基地

Noticias de IA relacionadas recomendadas

El Departamento de Justicia de EE. UU. exige a Google que venda Chrome y relaje las restricciones a las inversiones en IA

Tongyi App lanza el modelo de inteligencia artificial Qianwen QwQ-32B: Experiencia de IA mejorada continuamente

Manus, el asistente de IA multifuncional creado por el equipo de Monica, es un éxito rotundo. ¿Cómo conseguir un código de invitación para Manus?

Quantexa recauda 175 millones de dólares, alcanzando una valoración de 2600 millones y reforzando sus negocios de análisis de datos e inteligencia artificial