Das von Fudan University entwickelte Open-Source-Projekt Hallo, mit dem sich aus Audio- und Bilddaten sprechende Videos generieren lassen, ist nun mit dem ComfyUI-Plugin kompatibel. Obwohl die Installation aufgrund der zahlreichen Abhängigkeiten etwas anspruchsvoller ist, eröffnet dieses Open-Source-Ökosystem neue Möglichkeiten und viel Spaß für die spätere Bildbearbeitung und andere Prozesse.
Mit Hallo können Sie durch Eingabe von Audiodaten ein Gesichtsfoto zum Sprechen bringen, inklusive passender Mimik. Das Ergebnis wirkt sehr natürlich. Das Projekt verwendet ein End-to-End-Diffusionsmodell und integriert ein hierarchisches, audiogesteuertes visuelles Synthesemodul, um die Genauigkeit der Ausrichtung zwischen Audioeingabe und visueller Ausgabe zu verbessern, einschließlich Lippenbewegungen, Gesichtsausdrücken und Körperhaltung.
Dieses hierarchische, audiogesteuerte visuelle Synthesemodul bietet eine adaptive Steuerung der Vielfalt von Gesichtsausdrücken und Körperhaltungen und ermöglicht eine effektivere, personalisierte Anpassung an verschiedene Personen. Das bedeutet, dass unabhängig vom verwendeten Gesichtsfoto mit Hallo sprechende Videos erzeugt werden können, die natürlich wirken, als würde eine reale Person sprechen.
Auch wenn die Installation von Hallo etwas komplex sein mag, belebt es das Open-Source-Ökosystem zweifellos. Mit der Weiterentwicklung der Technologie können wir in Zukunft weitere ähnliche Projekte erwarten, die unser Leben komfortabler und unterhaltsamer gestalten.
Plugin-Adresse: https://github.com/AIFSH/ComfyUI-Hallo