MMAudio: Neue KI-Audiotechnologie zur automatischen Vertonung von Videos mit Text- oder Videoeingabe

Ein Forschungsteam der University of Illinois Urbana-Champaign, Sony AI und der Sony Group hat kürzlich MMAudio vorgestellt, eine neue Technologie zur hochwertigen Video-zu-Audio-Synthese durch multimodales, gemeinsames Training.

Die Kerninnovation von MMAudio liegt in der Fähigkeit, synchronisierte Audiodaten aus Video- und Texteingaben zu generieren. Dies erweitert die Anwendungsmöglichkeiten der Audiogenerierung und ermöglicht die Erstellung von Soundeffekten, die zum Videomaterial passen, basierend auf Video- oder Texteingaben.

MMAudio ist so konzipiert, dass es auf verschiedenen audiovisuellen und audio-textuellen Datensätzen trainiert werden kann. Dieses multimodale, gemeinsame Training verbessert nicht nur die Qualität der synthetisierten Audiodaten, sondern stellt auch die Synchronität zwischen den generierten Audiodaten und den Videobildern sicher. Der integrierte Synchronisationsmodul erhöht die Genauigkeit der Audiogenerierung erheblich und gewährleistet die Konsistenz von Audio und Video.

Der Code für MMAudio befindet sich derzeit noch im Aufbau. Die Forscher geben an, dass die Inferenzfunktion für einzelne Beispiele bereits funktioniert, der Trainingscode wird in einer späteren Version veröffentlicht. Für eine einfache Nutzung wurde die Technologie auf Ubuntu getestet und eine entsprechende Installationsanleitung bereitgestellt. Benutzer benötigen Python 3.9 oder höher, sowie passende Versionen von PyTorch und ffmpeg. Die Installation von MMAudio erfolgt dann über einen einfachen Befehl.

MMAudio weist bei der Audiogenerierung noch einige Einschränkungen auf, z. B. gelegentlich undeutliche Sprache oder Hintergrundmusik, und die Verarbeitung einiger unbekannter Konzepte ist noch nicht optimal. Das Forschungsteam ist der Ansicht, dass die Verwendung hochwertigerer Trainingsdaten dazu beitragen kann, diese Probleme zu lösen. Mit dem Fortschritt der Forschung wird MMAudio seine Leistung voraussichtlich weiter verbessern.

Testversion: https://huggingface.co/spaces/hkchengrex/MMAudio

Code: https://github.com/hkchengrex/MMAudio

Wichtigste Punkte:
🌟 MMAudio synthetisiert mittels multimodalem, gemeinsamem Training hochwertige Audiodaten aus Videos.
📦 MMAudio lässt sich einfach unter Ubuntu installieren und zur Audiogenerierung verwenden.
⚠️ Die aktuelle Version weist noch einige Einschränkungen auf, das Forschungsteam arbeitet jedoch an der Verbesserung der Leistung durch Erweiterung der Trainingsdaten.

KI-Nachrichten und -Informationen

MMAudio: Neue KI-Audiotechnologie zur automatischen Vertonung von Videos mit Text- oder Videoeingabe

AIbase基地