Les laboratoires Ali Tongyi ont récemment lancé un nouveau grand modèle de génération de vidéos de personnages numériques appelé « OmniTalker ». Le cœur de ce modèle innovant réside dans sa capacité à imiter précisément les expressions, la voix et le style de parole d'une personne à partir d'une simple vidéo de référence. Comparé aux méthodes traditionnelles de création de personnages numériques, OmniTalker réduit considérablement les coûts de production tout en améliorant le réalisme et l'interactivité du contenu généré, répondant ainsi à une large gamme de besoins.
OmniTalker est très facile à utiliser. Les utilisateurs n'ont qu'à télécharger une vidéo de référence sur la plateforme pour générer du contenu audio et vidéo synchronisé. Actuellement, le projet est disponible sur des plateformes comme MoDa Community et HuggingFace, offrant plusieurs modèles utilisables gratuitement. Afin de démontrer la puissance de cette technologie, les laboratoires Ali Tongyi ont présenté plusieurs exemples vidéo. Les spectateurs ont eu du mal à distinguer les personnages générés par l'IA des prises de vue réelles, ce qui est impressionnant.
Le développement de ce modèle s'inscrit dans le contexte de l'essor récent des grands modèles linguistiques et de l'utilisation croissante des présentateurs virtuels et des assistants virtuels. Cependant, les recherches sur la génération de personnages numériques pilotés par du texte étaient relativement rares, et les méthodes traditionnelles, souvent basées sur des pipelines en cascade, entraînaient des problèmes de désynchronisation audio-vidéo et d'incohérence du style de parole. OmniTalker, grâce à son architecture DiT à double branche, génère simultanément des voix et des vidéos synchronisées à partir de texte et de vidéos de référence, surmontant ainsi ces obstacles techniques.