Vous vous souvenez des films de science-fiction où le héros, grâce à une baguette magique, pouvait manipuler le son à volonté ? Cette capacité extraordinaire n'est plus de la science-fiction ! Le nouveau modèle d'IA de NVIDIA, Fugatto, est comme une « baguette magique sonore » qui permet aux utilisateurs de contrôler la musique, les sons et la voix simplement avec du texte, créant ainsi des effets auditifs étonnants.
Fugatto, acronyme de « Foundational Generative Audio Transformer Opus1 », est un modèle de traitement audio basé sur l'IA générative. Contrairement à d'autres modèles d'IA qui ne peuvent que composer de la musique ou modifier la voix, Fugatto possède des capacités bien plus puissantes : il peut générer ou transformer n'importe quel mélange de musique, de voix et de sons, et il est capable de comprendre et d'exécuter les instructions saisies par l'utilisateur via du texte et des fichiers audio.
Les puissantes fonctionnalités de Fugatto ont impressionné les professionnels de divers secteurs, notamment les producteurs de musique, les agences de publicité, les développeurs d'outils d'apprentissage des langues et les développeurs de jeux vidéo. Les producteurs de musique peuvent l'utiliser pour expérimenter rapidement différents styles musicaux, voix et instruments, et même ajouter des effets ou améliorer la qualité sonore de morceaux existants. Les agences de publicité peuvent s'en servir pour ajouter différentes intonations et émotions aux voix off de leurs publicités, afin de les adapter facilement à différentes régions et groupes cibles. Les développeurs d'outils d'apprentissage des langues peuvent utiliser Fugatto pour transformer le contenu des cours en n'importe quelle voix souhaitée par l'utilisateur, par exemple celle d'un membre de sa famille ou d'un ami, pour une expérience d'apprentissage plus personnalisée. Les développeurs de jeux vidéo peuvent utiliser Fugatto pour modifier en temps réel les éléments sonores du jeu en fonction de son déroulement, ou pour créer de nouveaux effets sonores à partir d'instructions textuelles et d'entrées audio.
Le caractère exceptionnel de Fugatto réside dans sa capacité à comprendre et à générer des sons comme un être humain. Il peut non seulement exécuter les instructions spécifiques données par l'utilisateur, mais aussi créer des sons inédits. Par exemple, il peut faire aboyer un chien avec une trompette ou miauler un chat avec un saxophone ; pourvu que l'utilisateur puisse le décrire, Fugatto peut le créer.
Source : L'image a été générée par l'IA, et son utilisation est autorisée par le fournisseur de services Midjourney.
Une autre capacité révolutionnaire de Fugatto est sa possibilité de combiner des instructions apprises séparément pendant la phase d'entraînement pour générer des effets plus complexes. Par exemple, l'utilisateur peut lui demander de générer une voix off avec une intonation triste et un accent français. Plus étonnant encore, Fugatto permet à l'utilisateur d'affiner les instructions, par exemple en contrôlant l'intensité de l'accent ou de la tristesse, permettant ainsi une créativité artistique.
Fugatto peut également générer des sons qui évoluent dans le temps, comme une tempête qui s'approche de loin, avec des grondements de tonnerre qui augmentent progressivement puis s'estompent dans le lointain. L'utilisateur peut contrôler précisément l'évolution du son, créant ainsi des effets sonores réalistes.
Fugatto est le fruit d'une collaboration entre des chercheurs du monde entier, originaires d'Inde, du Brésil, de Chine, de Jordanie et de Corée du Sud, entre autres. Cette diversité de profils a permis à Fugatto de développer de puissantes capacités de traitement multilingue et multi-accents.
La création de Fugatto est l'aboutissement de nombreuses années de recherche de NVIDIA dans les domaines de la modélisation vocale, du codage audio et de la compréhension audio. Il utilise 2,5 milliards de paramètres et a été entraîné sur un cluster de systèmes NVIDIA DGX équipés de 32 GPU NVIDIA H100 Tensor Core.
L'arrivée de Fugatto marque l'entrée de la technologie de traitement audio dans une nouvelle ère. Il offrira des possibilités infinies aux secteurs de la musique, du cinéma, des jeux vidéo et de l'éducation, et nous attendons avec impatience les merveilles auditives qu'il créera !
Blog officiel : https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/