L'équipe de recherche de ByteDance a récemment développé un système d'intelligence artificielle appelé OmniHuman, capable de transformer une seule photo en une vidéo réaliste montrant une personne parlant, chantant et effectuant des mouvements naturels. Cette technologie révolutionnaire devrait bouleverser les secteurs du divertissement numérique et des communications.
OmniHuman peut générer des vidéos corporelles complètes, montrant les gestes et la dynamique des personnes lorsqu'elles parlent, surpassant ainsi les modèles d'IA précédents qui ne pouvaient animer que le visage ou le haut du corps. Au cœur de cette technologie se trouve la combinaison d'entrées multiples telles que le texte, l'audio et les mouvements corporels, via une méthode d'entraînement dite « conditionnelle complète », permettant à l'IA d'apprendre à partir d'un ensemble de données plus vaste et plus riche.
L'équipe de recherche souligne qu'OmniHuman, entraîné sur plus de 18 700 heures de données vidéo humaines, a montré des progrès significatifs. L'introduction de multiples signaux conditionnels (tels que le texte, l'audio et la posture) a non seulement amélioré la qualité de la génération vidéo, mais a également permis de réduire efficacement le gaspillage de données.
Dans un article publié sur arXiv, les chercheurs mentionnent que, malgré les progrès significatifs réalisés ces dernières années dans les techniques d'animation humaine de bout en bout, les méthodes existantes présentent encore des limites en termes d'évolutivité.
Le potentiel d'application d'OmniHuman est vaste, pouvant servir à la création de vidéos de présentation, de démonstrations d'instruments de musique, etc. Des tests ont montré que la technologie surpasse les systèmes existants sur plusieurs critères de qualité, démontrant ainsi ses performances exceptionnelles. Cette avancée intervient dans un contexte de concurrence croissante dans le domaine de la génération de vidéos par IA, où des entreprises comme Google, Meta et Microsoft sont également à la poursuite de technologies similaires.
Cependant, bien qu'OmniHuman offre des possibilités de transformation pour la production de divertissements, la création de contenu éducatif et les communications numériques, il soulève également des inquiétudes concernant l'utilisation potentielle abusive des médias synthétiques. L'équipe de recherche présentera ses résultats de recherche lors d'une prochaine conférence sur la vision par ordinateur, bien que la date et le lieu précis de la conférence n'aient pas encore été annoncés.
Article : https://arxiv.org/pdf/2502.01061
Points clés :
🌟 OmniHuman est un nouvel IA capable de transformer une seule photo en une vidéo réaliste du corps entier.
📊 Cette technologie a été entraînée sur 18 700 heures de données vidéo humaines et combine plusieurs signaux d'entrée pour améliorer la qualité de la génération.
⚖️ Malgré son vaste potentiel d'application, elle soulève des inquiétudes quant à la possibilité d'une mauvaise utilisation des médias synthétiques.