Kürzlich haben das Adobe-Forschungsteam und Wissenschaftler der University of Michigan ein KI-System namens MultiFoley entwickelt, das Soundeffekte für Film und Video generiert und die Postproduktion unterstützt.
Die Innovation von MultiFoley liegt in der Möglichkeit, Soundeffekte über Textbeschreibungen, Referenzaudio oder Videobeispiele zu erstellen. In einer Demonstration konnte das System sogar das Miauen einer Katze in das Brüllen eines Löwen oder das Geräusch einer Schreibmaschine in Klavierklänge umwandeln und diese perfekt mit den Videobildern synchronisieren.
MultiFoley erreicht eine hohe Audioausgabequalität von 48 kHz, was hauptsächlich auf das Training mit Videos aus dem Internet und professionellen Soundeffekt-Bibliotheken zurückzuführen ist. Im Gegensatz zu früheren Systemen integriert MultiFoley erstmals verschiedene Eingabemethoden – Text, Audio und Video-Referenzen – in ein einziges Modell. Durch die Analyse von 8 Bildern pro Sekunde und deren Hochskalierung zur Anpassung an die Audio-Abtastrate von 40 Hz wird eine präzise Synchronisierung von Audio und Video gewährleistet.
In Tests zeigte MultiFoley eine hervorragende Leistung in Bezug auf die Synchronisierung von Audio und Video sowie die Übereinstimmung von Soundeffekten mit Textbeschreibungen. Die durchschnittliche Synchronisationsgenauigkeit beträgt 0,8 Sekunden, was deutlich besser ist als die übliche Verzögerung von über einer Sekunde bei herkömmlichen Systemen. Benutzerstudien ergaben, dass 85,8 % der Teilnehmer MultiFoley in Bezug auf die semantische Konsistenz als überlegen gegenüber dem zweitplatzierten System bewerteten, während 94,5 % der Teilnehmer die Synchronisierung bevorzugten.
Obwohl MultiFoley ein großes Potenzial zeigt, weisen die Forscher auch auf einige aktuelle Einschränkungen hin, wie z. B. die relativ kleine Trainingsdatenmenge, die die Vielfalt der Soundeffekte begrenzt. Das System hat auch Schwierigkeiten bei der Generierung mehrerer simultaner Soundeffekte. Das Forschungsteam plant, den Quellcode und das Modell in Kürze zu veröffentlichen.
Adobe hat zwar noch nicht angekündigt, MultiFoley in seine Produkte zu integrieren, aber diese Technologie passt gut zu den bestehenden KI-Funktionen der Videobearbeitungssoftware Adobe Premiere Pro und könnte sowohl für Einzelanwender als auch für Produktionsfirmen den Workflow im Sounddesign vereinfachen.
Wichtigste Punkte:
🎬 MultiFoley ist ein von Adobe und der University of Michigan gemeinsam entwickeltes KI-System zur Generierung von Soundeffekten mit verschiedenen Eingabemethoden.
🔊 Das System erreicht eine Audioausgabequalität von 48 kHz und eine durchschnittliche Synchronisationsgenauigkeit von 0,8 Sekunden, was besser ist als bei herkömmlichen Systemen.
📈 Benutzerstudien zeigen eine hohe Bewertung von MultiFoley in Bezug auf die semantische Konsistenz und die Synchronisierung der Soundeffekte.