Mit einem einfachen Summen oder rhythmischen Klopfen kann KI hochwertige Musik oder Soundeffekte erzeugen – das ist keine Fantasie mehr. Eine innovative Studie namens Sketch2Sound präsentiert ein neuartiges KI-Modell, das mithilfe von Klangimitationen und Textprompts hochwertige Audiodaten generieren kann und damit einen revolutionären Durchbruch im Bereich der Soundgestaltung darstellt.

image.png

Das Kernstück von Sketch2Sound liegt in seiner Fähigkeit, aus jeder Klangimitation (z. B. Nachahmung von Stimmen oder Referenzklängen) drei zeitveränderliche Schlüsselsignale zu extrahieren: Lautstärke, Helligkeit (Spektralzentrum) und Tonhöhe. Diese codierten Steuersignale werden dann in ein latentes Diffusionsmodell für die Text-zu-Audio-Generierung integriert und leiten so die KI zur Erzeugung von Klängen nach spezifischen Vorgaben.

Besonders bemerkenswert ist die Leichtigkeit und Effizienz dieser Technologie. Sketch2Sound baut auf bestehenden Text-zu-Audio-Diffusionsmodellen auf und benötigt lediglich 40.000 Feinabstimmungsschritte. Jedes Steuersignal benötigt nur eine lineare Schicht, was im Vergleich zu anderen Methoden (wie ControlNet) deutlich einfacher und effizienter ist. Um die Synthese aus „skizzenhaften“ Klangimitationen zu ermöglichen, verwendeten die Forscher während des Trainings einen stochastischen Medianfilter für die Steuersignale, um sich an Steuersignale mit flexiblen zeitlichen Eigenschaften anzupassen. Die Ergebnisse zeigen, dass Sketch2Sound nicht nur Klänge erzeugt, die den Eingabesignalen entsprechen, sondern auch Textprompts befolgt und eine vergleichbare Audioqualität wie reine Text-basierte Modelle erreicht.

Sketch2Sound bietet Klangkünstlern eine völlig neue Arbeitsweise. Sie können die semantische Flexibilität von Textprompts mit der Ausdruckskraft und Präzision von Klanggesten oder -imitationen kombinieren, um einzigartige Klangwerke zu schaffen. Ähnlich wie traditionelle Foley-Künstler Geräusche durch die Manipulation von Objekten erzeugen, steuert Sketch2Sound die Klangerzeugung durch Klangimitationen und verleiht der Klanggestaltung eine „menschliche“ Note, wodurch der künstlerische Wert der Klangwerke gesteigert wird.

Im Vergleich zu herkömmlichen Text-zu-Audio-Interaktionen behebt Sketch2Sound deren Einschränkungen. Bisher mussten Sounddesigner viel Zeit aufwenden, um die zeitlichen Eigenschaften der erzeugten Klänge an die visuellen Effekte anzupassen. Sketch2Sound ermöglicht diese Synchronisation hingegen auf natürliche Weise durch Klangimitationen. Dabei ist es nicht auf die Imitation von Stimmen beschränkt, sondern jede Art von Klangimitation kann das generative Modell steuern.

Die Forscher entwickelten außerdem eine Technik, um die zeitlichen Details der Steuersignale durch die Anwendung von Medianfiltern mit unterschiedlichen Fenstergrößen während des Trainings anzupassen. Dies ermöglicht es Klangkünstlern, den Grad der Genauigkeit zu steuern, mit dem das generative Modell die zeitlichen Eigenschaften der Steuersignale befolgt, und so die Qualität von Klängen zu verbessern, die schwer perfekt nachzuahmen sind. In der Praxis können Benutzer die Größe des Medianfilters anpassen, um ein Gleichgewicht zwischen der strikten Befolgung der Klangimitation und der Gewährleistung der Audioqualität zu finden.

Sketch2Sound funktioniert folgendermaßen: Zuerst werden aus dem eingehenden Audiosignal drei Steuersignale extrahiert: Lautstärke, Spektralzentrum und Tonhöhe. Diese Steuersignale werden dann mit den latenten Signalen im Text-zu-Audio-Modell ausgerichtet, und durch einfache lineare Projektionsschichten wird das latente Diffusionsmodell angepasst, um schließlich die gewünschten Klänge zu erzeugen. Experimentelle Ergebnisse zeigen, dass die Anpassung des Modells durch zeitveränderliche Steuersignale die Einhaltung dieser Signale deutlich verbessert, während der Einfluss auf die Audioqualität und die Texttreue minimal ist.

Bemerkenswert ist auch, dass die Forscher herausfanden, dass Steuersignale die Semantik des generierten Signals manipulieren können. Wenn beispielsweise der Textprompt „Waldatmosphäre“ verwendet wird und in der Klangimitation zufällige Lautstärkespitzen hinzugefügt werden, kann das Modell in diesen Lautstärkespitzen Vogelstimmen synthetisieren, ohne dass zusätzlich „Vögel“ angegeben werden muss. Dies deutet darauf hin, dass das Modell den Zusammenhang zwischen Lautstärkespitzen und dem Vorhandensein von Vögeln gelernt hat.

Natürlich hat Sketch2Sound auch einige Einschränkungen. So kann die Steuerung des Spektralzentrums beispielsweise den Raumklang der eingehenden Klangimitation in das generierte Audio integrieren. Dies liegt möglicherweise daran, dass der Raumklang durch das Spektralzentrum codiert wird, wenn im eingehenden Audio keine Klangereignisse vorhanden sind.

Zusammenfassend lässt sich sagen, dass Sketch2Sound ein leistungsstarkes generatives Klangmodell ist, das Klänge mithilfe von Textprompts und zeitveränderlichen Steuersignalen (Lautstärke, Helligkeit, Tonhöhe) erzeugen kann. Es ermöglicht die Klangerzeugung durch Klangimitationen und „skizzenhafte“ Steuerkurven und zeichnet sich durch seine Leichtigkeit und Effizienz aus. Es bietet Klangkünstlern ein kontrollierbares, gestenbasiertes und ausdrucksstarkes Werkzeug zur Erzeugung von Klängen mit flexiblen zeitlichen Eigenschaften und bietet großes Potenzial für zukünftige Anwendungen in der Musikproduktion, im Game-Sounddesign und anderen Bereichen.

论文地址:https://arxiv.org/pdf/2412.08550