Erinnern Sie sich an Science-Fiction-Filme, in denen Protagonisten mit einem Zauberstab Geräusche nach Belieben manipulieren? Diese magische Fähigkeit ist jetzt Realität! NVIDIAs neuestes KI-Modell Fugatto, wie ein „Zauberstab für Geräusche“, ermöglicht es Nutzern, Musik, Sounds und Sprache allein mit Text zu steuern und fantastische Hörerlebnisse zu schaffen.
Fugatto, kurz für „Foundational Generative Audio Transformer Opus1“, ist ein auf generativer KI-Technologie basierendes Audioverarbeitungsmodell. Im Gegensatz zu anderen KI-Modellen, die nur Musik komponieren oder Sprache verändern können, bietet Fugatto deutlich mehr Möglichkeiten: Es kann beliebige Mischungen aus Musik, Sprache und Geräuschen erzeugen oder umwandeln und Anweisungen aus Text- und Audiodateieingaben verstehen und ausführen.
Fugatto beeindruckt Nutzer aus verschiedenen Branchen, darunter Musikproduzenten, Werbeagenturen, Entwickler von Sprachlern-Tools und Spieleentwickler. Musikproduzenten können damit schnell verschiedene Musikstile, Stimmen und Instrumente ausprobieren und sogar bestehende Songs mit Effekten verbessern oder die Klangqualität optimieren. Werbeagenturen können damit Werbespots mit verschiedenen Akzenten und Emotionen versehen und so Werbung einfach auf verschiedene Regionen und Zielgruppen ausrichten. Entwickler von Sprachlern-Tools können mit Fugatto Kursinhalte in beliebige Stimmen umwandeln, z. B. die Stimme von Familienmitgliedern oder Freunden, um das Lernen persönlicher zu gestalten. Spieleentwickler können Fugatto nutzen, um Soundeffekte in Spielen in Echtzeit basierend auf dem Spielverlauf zu ändern oder neue Soundeffekte anhand von Textanweisungen und Audioeingaben zu erstellen.
Das Besondere an Fugatto ist seine Fähigkeit, Geräusche wie ein Mensch zu verstehen und zu erzeugen. Es kann nicht nur konkrete Anweisungen ausführen, sondern auch völlig neue Sounds kreieren. So kann es beispielsweise eine Trompete Hundegebell oder ein Saxophon Katzengeräusche erzeugen – solange der Nutzer es beschreiben kann, kann Fugatto es erschaffen.
Bildquelle: Das Bild wurde mit KI generiert, Bildrechte liegen bei Midjourney.
Eine weitere bahnbrechende Fähigkeit von Fugatto ist die Kombination von im Training separat erlernten Anweisungen zu komplexeren Effekten. So kann der Nutzer beispielsweise eine französische Sprachansage mit trauriger Stimmung erzeugen. Noch erstaunlicher ist, dass Fugatto feinste Anpassungen der Anweisungen erlaubt, z. B. die Stärke des Akzents oder die Intensität der Traurigkeit, sodass der Nutzer wie ein Künstler gestalten kann.
Fugatto kann auch Geräusche erzeugen, die sich im Laufe der Zeit verändern, z. B. ein Gewitter, das sich nähert, dessen Donner lauter wird und dann langsam in der Ferne verschwindet. Der Nutzer kann den Verlauf der Veränderung präzise steuern und so lebensechte Soundeffekte erzeugen.
Fugatto ist das Ergebnis der Zusammenarbeit von Forschern aus aller Welt, aus Ländern wie Indien, Brasilien, China, Jordanien und Südkorea. Dieser vielfältige Hintergrund verleiht Fugatto starke Fähigkeiten in der Verarbeitung verschiedener Akzente und Sprachen.
Fugatto ist die Krönung jahrelanger Forschungsarbeit von NVIDIA in den Bereichen Sprachmodellierung, Audiocodierung und Audioverständnis. Es verwendet 2,5 Milliarden Parameter und wurde auf einem NVIDIA DGX-Systemcluster mit 32 NVIDIA H100 Tensor Core GPUs trainiert.
Das Erscheinen von Fugatto markiert den Beginn einer neuen Ära in der Audioverarbeitungstechnologie. Es wird Musik, Film, Spiele, Bildung und viele weitere Bereiche mit unzähligen Möglichkeiten bereichern. Lasst uns gespannt auf die weiteren erstaunlichen Hörerlebnisse warten!
Offizieller Blog: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/