Vous êtes encore en train de vous arracher les cheveux pour trouver le doublage et les effets sonores parfaits pour vos courtes vidéos ? Vous cherchez désespérément le morceau de musique idéal, mais vous n’êtes jamais entièrement satisfait ? Désormais, ByteDance dévoile une technologie IA révolutionnaire qui brise enfin le dernier sortilège du silence dans la création vidéo ! Leur nouveau modèle de génération d’effets sonores SeedFoley est comme une âme injectée dans vos vidéos. D’un simple clic, il associe intelligemment des effets sonores professionnels à vos vidéos, transformant instantanément vos films muets en productions sonores époustouflantes ! Encore plus excitant, cette prouesse technologique en matière d’effets sonores IA est disponible sur la plateforme de création vidéo de ByteDance, Jiemèng, permettant à chacun de profiter instantanément de la magie d’un ajout d’effets sonores en un clic !
Comment SeedFoley parvient-il à créer des effets sonores aussi réalistes ? Le secret réside dans son architecture révolutionnaire de bout en bout. Tel un magicien du son, il fusionne intelligemment les caractéristiques spatio-temporelles de la vidéo avec un puissant modèle de génération par diffusion, assurant une synchronisation et une harmonie parfaites entre les effets sonores et le contenu vidéo. En termes simples, SeedFoley analyse d’abord la vidéo image par image, comme un scanner, extrayant les informations clés de chaque image. Un encodeur vidéo interprète ensuite en profondeur le contenu, comprenant ce qui se passe, et projette cette compréhension dans un espace conditionnel, guidant ainsi la génération d’effets sonores. Sur cette autoroute de la génération sonore, SeedFoley utilise un cadre de modèle de diffusion amélioré, comme un concepteur sonore à l’imagination débordante, générant intelligemment des solutions sonores parfaitement adaptées au contenu vidéo.
Pour que l’IA comprenne mieux l’art du son, SeedFoley a été entraîné sur un grand nombre d’étiquettes audio et musicales, comme une encyclopédie sonore, lui permettant de distinguer les effets sonores des autres sons et de générer des effets sonores plus précis. Plus impressionnant encore, SeedFoley est un véritable couteau suisse, capable de traiter des vidéos de toutes longueurs, qu’il s’agisse de quelques secondes d’action ou de plusieurs minutes d’histoire complète. Il atteint des niveaux de précision, de synchronisation et d’adéquation au contenu vidéo inégalés dans le secteur.
L’encodeur vidéo de SeedFoley recèle également des secrets. Il utilise une méthode unique combinant des caractéristiques rapides et lentes. À des fréquences d’images élevées, il capture les informations sur les mouvements subtils, comme un œil de lynx, tandis qu’à des fréquences d’images basses, il extrait les informations sémantiques, comprenant le cœur de l’histoire. Cette combinaison permet de conserver les caractéristiques de mouvement clés tout en réduisant les coûts de calcul, atteignant un équilibre parfait entre faible consommation d’énergie et hautes performances.
Cette approche combinant vitesse et lenteur permet à SeedFoley d’extraire des caractéristiques vidéo au niveau de l’image à une vitesse impressionnante de 8 ips avec des ressources de calcul limitées, localisant précisément chaque mouvement subtil. Enfin, la structure Transformer fusionne les caractéristiques rapides et lentes, explorant en profondeur les mystères spatio-temporels de la vidéo. Pour améliorer encore l’efficacité et les résultats de l’entraînement, SeedFoley introduit intelligemment plusieurs exemples difficiles par lot, stimulant l’IA et améliorant considérablement l’alignement sémantique. L’utilisation de sigmoidloss au lieu de softmaxloss permet d’obtenir des résultats comparables à ceux d’un entraînement par lots importants, avec une consommation de ressources bien moindre.
En ce qui concerne le modèle de représentation audio, SeedFoley se distingue également. Contrairement aux modèles VAE traditionnels qui utilisent généralement le mel-spectrogramme comme codage des caractéristiques audio, SeedFoley utilise audacieusement la forme d’onde brute (raw waveform) comme entrée, comme s’il écoutait directement la forme originale du son. Après le codage, il obtient une représentation audio 1D. Cette méthode présente des avantages supérieurs en termes de reconstruction et de modélisation de la génération audio par rapport aux modèles mel-VAE traditionnels. Pour garantir la préservation intégrale des informations haute fréquence, SeedFoley utilise une fréquence d’échantillonnage audio de 32 k, extrayant 32 représentations audio potentielles par seconde, améliorant ainsi la résolution temporelle de l’audio et rendant les effets sonores plus subtils et réalistes, comme une musique céleste.
Le modèle de représentation audio de SeedFoley utilise également une stratégie d’entraînement conjoint en deux phases. Dans la première phase, une stratégie de masquage est utilisée pour supprimer les informations de phase de la représentation audio, la représentation latente déphasée servant d’objectif d’optimisation pour le modèle de diffusion. C’est comme déconstruire la structure du son avant de le reconstruire. Dans la deuxième phase, un décodeur audio est utilisé pour reconstruire les informations de phase à partir de la représentation déphasée, comme une restauration magique, ramenant le son à son état le plus réaliste. Cette approche progressive réduit la difficulté de prédiction de la représentation par le modèle de diffusion, aboutissant à la génération et à la restauration de représentations audio latentes de haute qualité.
Pour le modèle de diffusion, SeedFoley a choisi le cadre DiffusionTransformer. En optimisant les relations de mappage continues sur le chemin probabiliste, il réalise un appariement probabiliste précis entre la distribution de bruit gaussien et l’espace de représentation audio cible, comme la découverte du chemin correct vers le son cible dans un océan de bruit. Contrairement aux modèles de diffusion traditionnels qui dépendent de l’échantillonnage en chaîne de Markov, SeedFoley construit un chemin de transformation continu, réduisant efficacement le nombre d’étapes d’inférence et diminuant considérablement les coûts d’inférence, ce qui accélère et améliore l’efficacité de la génération d’effets sonores. Pendant la phase d’entraînement, SeedFoley code les caractéristiques vidéo et les étiquettes sémantiques audio en vecteurs d’espace latent, traduisant les informations vidéo et audio dans un langage compréhensible par l’IA. Ensuite, par concaténation sur la dimension des canaux (Channel-wise Concatenation), il mélange ces informations avec le codage temporel (Time Embedding) et le signal de bruit, formant une entrée conditionnelle conjointe. C’est comme fusionner les informations vidéo, audio et temporelles, permettant à l’IA de comprendre plus complètement le contenu vidéo et de générer des effets sonores plus précis.
Cette conception astucieuse, grâce à la modélisation explicite des corrélations temporelles inter-modalités, améliore l’uniformité temporelle entre les effets sonores et les images vidéo, ainsi que la capacité de compréhension du contenu. Pendant la phase d’inférence, l’utilisateur peut ajuster le coefficient CFG pour équilibrer l’intensité de contrôle des informations visuelles et la qualité de la génération, comme s’il disposait d’une table de mixage audio, permettant d’ajuster librement le style des effets sonores selon ses besoins. En optimisant itérativement la distribution du bruit, SeedFoley transforme progressivement le bruit en distribution de données cible, générant finalement des effets sonores audio de haute qualité. Pour éviter l’inclusion de voix ou de musiques de fond inutiles dans les effets sonores, SeedFoley peut définir de manière forcée les étiquettes vocales et musicales, comme pour délimiter les effets sonores, améliorant ainsi la clarté et la texture des effets sonores. Enfin, en introduisant la représentation audio dans le décodeur audio, on obtient l’effet sonore parfait.
En résumé, l’arrivée de SeedFoley marque une fusion profonde entre le contenu vidéo et la génération audio. Il peut extraire précisément les informations visuelles au niveau des images vidéo, en analysant les informations sur plusieurs images pour identifier précisément le sujet émetteur et la scène d’action dans la vidéo. Que ce soit pour des moments musicaux rythmés ou des scènes tendues de films, SeedFoley peut s’aligner précisément sur le tempo, créant une expérience immersive réaliste. Plus surprenant encore, SeedFoley peut intelligemment distinguer les effets sonores d’action des effets sonores environnementaux, comme un artiste du son, améliorant considérablement la tension narrative et l’efficacité de la transmission émotionnelle des vidéos, rendant vos œuvres plus percutantes.
La fonction d’effets sonores IA est désormais officiellement disponible sur la plateforme Jiemèng. Il suffit d’utiliser Jiemèng pour générer une vidéo, puis de sélectionner la fonction d’effets sonores IA pour générer en un clic trois solutions d’effets sonores professionnels, éliminant facilement l’inconfort du silence dans les vidéos IA. Dans les scénarios à forte fréquence tels que la création de vidéos IA, les Vlogs, la production de courts métrages et la création de jeux, vous pouvez facilement produire des vidéos de haute qualité avec des effets sonores professionnels, donnant vie à vos vidéos !