Avec les progrès remarquables des technologies de génération de vidéo à partir de texte, la question de la génération de contenu audio sémantiquement et temporellement cohérent à partir d'une entrée vidéo est devenue un sujet de recherche majeur. Récemment, l'équipe de recherche du laboratoire d'intelligence artificielle de Tencent a lancé un nouveau modèle appelé « Génération audio-vidéo à alignement implicite » – VTA-LDM – conçu pour fournir une solution efficace de génération audio.

image.png

Accès au projet : https://top.aibase.com/tool/vta-ldm

Le concept central du modèle VTA-LDM repose sur une technique d'alignement implicite permettant de faire correspondre l'audio généré au contenu vidéo sur les plans sémantique et temporel. Cette approche non seulement améliore la qualité de la génération audio, mais étend également les applications des technologies de génération vidéo. L'équipe de recherche a mené une exploration approfondie de la conception du modèle, combinant plusieurs techniques pour garantir la précision et la cohérence de l'audio généré.

Cette étude se concentre sur trois aspects clés : l'encodeur visuel, l'intégration auxiliaire et les techniques d'augmentation de données. L'équipe de recherche a d'abord établi un modèle de base, puis a mené de nombreuses expériences d'ablation pour évaluer l'impact de différents encodeurs visuels et intégrations auxiliaires sur les résultats de la génération. Les résultats de ces expériences montrent que le modèle excelle en termes de qualité de génération et d'alignement synchrone vidéo-audio, atteignant les niveaux de pointe actuels.

Pour l'inférence, il suffit aux utilisateurs de placer les extraits vidéo dans le répertoire de données spécifié et d'exécuter le script d'inférence fourni pour générer le contenu audio correspondant. L'équipe de recherche fournit également un ensemble d'outils permettant aux utilisateurs de fusionner l'audio généré avec la vidéo d'origine, améliorant ainsi la convivialité de l'application.

Le modèle VTA-LDM propose actuellement plusieurs versions différentes pour répondre aux différents besoins de recherche. Ces modèles incluent un modèle de base et plusieurs modèles améliorés, afin d'offrir aux utilisateurs un choix flexible adapté à divers scénarios expérimentaux et applicatifs.

Le lancement du modèle VTA-LDM marque une avancée importante dans le domaine de la génération audio à partir de vidéo. Les chercheurs espèrent que ce modèle permettra de stimuler le développement des technologies connexes et d'ouvrir des possibilités d'applications plus vastes.

## Points clés :

  • 🎬 L'étude se concentre sur la génération de contenu audio aligné sémantiquement et temporellement avec l'entrée vidéo.
  • 🔍 Elle explore l'importance de l'encodeur visuel, de l'intégration auxiliaire et des techniques d'augmentation de données dans le processus de génération.
  • 📈 Les résultats expérimentaux montrent que le modèle atteint un niveau de pointe dans le domaine de la génération audio à partir de vidéo, stimulant ainsi le développement des technologies connexes.