Récemment, l'équipe de recherche d'Adobe et des chercheurs de l'Université du Michigan ont conjointement développé un système d'intelligence artificielle appelé MultiFoley, capable de générer des effets sonores de doublage pour les films et les vidéos, facilitant ainsi la post-production.

L'innovation de MultiFoley réside dans sa capacité à permettre aux utilisateurs de créer des effets sonores à partir d'invites textuelles, d'audios de référence ou d'exemples vidéo. Lors d'une démonstration, le système a même réussi à transformer le miaulement d'un chat en le rugissement d'un lion, ou le bruit d'une machine à écrire en notes de piano, le tout parfaitement synchronisé avec les images vidéo.

MultiFoley offre une qualité audio haute fidélité à 48 kHz, grâce à l'entraînement du système sur des vidéos provenant d'internet et des bibliothèques d'effets sonores professionnelles. Contrairement aux systèmes précédents, MultiFoley intègre pour la première fois plusieurs modes de saisie : texte, audio et vidéo de référence, dans un seul et même modèle. Il analyse les caractéristiques visuelles à 8 images par seconde et les amplifie pour correspondre au taux d'échantillonnage audio de 40 Hz, garantissant ainsi une synchronisation parfaite entre l'audio et la vidéo.

image.png

Lors des tests, MultiFoley a démontré d'excellentes performances en termes de synchronisation audio-vidéo et de correspondance entre les effets sonores et les descriptions textuelles, atteignant une précision de synchronisation moyenne de 0,8 seconde, surpassant ainsi les systèmes traditionnels qui présentent généralement un retard supérieur à une seconde. Une étude auprès des utilisateurs a révélé que 85,8 % des participants considéraient MultiFoley supérieur à son concurrent le plus proche en termes de cohérence sémantique, tandis que 94,5 % préféraient son effet de synchronisation.

image.png

Bien que MultiFoley présente un potentiel considérable, l'équipe de recherche souligne certaines limitations actuelles, telles qu'une base de données d'entraînement relativement limitée, restreignant ainsi la variété des effets sonores. Le système rencontre également des difficultés lors de la génération de plusieurs effets sonores simultanés. L'équipe prévoit de publier prochainement le code source et le modèle.

Bien qu'Adobe n'ait pas encore annoncé l'intégration de MultiFoley dans ses produits, cette technologie s'intègre parfaitement aux fonctionnalités d'intelligence artificielle déjà présentes dans son logiciel de montage vidéo Adobe Premiere Pro, et devrait faciliter le travail des créateurs individuels et des sociétés de production dans le processus de conception sonore.

Points clés :

🎬 MultiFoley est un système de génération d'effets sonores IA développé en collaboration entre Adobe et l'Université du Michigan, capable de générer des effets sonores à partir de différents modes de saisie.

🔊 La qualité audio du système atteint 48 kHz, avec une précision de synchronisation moyenne de 0,8 seconde, supérieure à celle des systèmes traditionnels.

📈 Une étude auprès des utilisateurs montre que MultiFoley obtient d'excellentes notes pour la cohérence sémantique et l'effet de synchronisation de ses effets sonores.