Une équipe de chercheurs de l'Université de l'Illinois à Urbana-Champaign, de Sony AI et du groupe Sony a récemment présenté une nouvelle technologie appelée MMAudio. Cette technologie vise à synthétiser de l'audio haute qualité à partir de vidéos grâce à un entraînement conjoint multi-modal.

L'innovation principale de MMAudio réside dans sa capacité à générer de l'audio synchronisé à partir d'entrées vidéo et textuelles. Cela élargit les applications de la génération audio, permettant de générer des effets sonores correspondant au contenu vidéo à partir de vidéos ou de textes.

MMAudio est conçu pour être entraîné sur divers ensembles de données audiovisuelles et audio-textuelles. Cet entraînement conjoint multi-modal améliore non seulement la qualité de l'audio synthétisé, mais garantit également la synchronisation entre l'audio généré et les images vidéo. L'intégration de ce module de synchronisation améliore considérablement la précision de la génération audio, assurant la cohérence entre le contenu audio et vidéo.

Actuellement, la bibliothèque de code de MMAudio est encore en cours de développement. Les chercheurs indiquent que la fonction d'inférence sur un seul exemple est déjà fonctionnelle, tandis que le code d'entraînement sera disponible dans les versions ultérieures. Pour faciliter l'utilisation, la technologie a été testée sur le système d'exploitation Ubuntu et un guide d'installation est fourni. Les utilisateurs doivent disposer de Python 3.9 ou supérieur, ainsi que des versions appropriées de PyTorch et de ffmpeg. L'installation de MMAudio se fait ensuite via une simple commande.

MMAudio présente encore quelques limitations dans la génération audio, telles que la production occasionnelle d'une voix ou d'une musique de fond peu claires, et une gestion imparfaite de certains concepts inconnus. L'équipe de recherche estime que l'ajout de données d'entraînement de haute qualité permettra de résoudre ces problèmes. Avec la poursuite des recherches, MMAudio devrait améliorer ses performances à l'avenir.

Essai : https://huggingface.co/spaces/hkchengrex/MMAudio

Code : https://github.com/hkchengrex/MMAudio

Points clés :

🌟 MMAudio permet une synthèse audio-vidéo de haute qualité grâce à un entraînement conjoint multi-modal.

📦 MMAudio peut être utilisé pour la génération audio sous Ubuntu grâce à une installation simple.

⚠️ La version actuelle présente quelques limitations, mais l'équipe de recherche travaille à l'amélioration des performances en augmentant les données d'entraînement.