Kürzlich hat ein zukunftsweisendes Projekt im Bereich der künstlichen Intelligenz, namens EmoTalk3D, große Aufmerksamkeit erregt. Das Projekt ermöglicht die hochgenaue und freie Synthese von ausdrucksstarken 3D-Sprechavataren durch die Einführung des EmoTalk3D-Datensatzes. Dieser Datensatz enthält kalibrierte Mehransichtsvideos, emotionale Markierungen und 3D-Geometrien für jedes Einzelbild.
Das EmoTalk3D-Forschungsteam hat sich mit den bestehenden Schwächen der 3D-Sprechavatar-Technologie in Bezug auf Mehransichtskonsistenz und Emotionsausdruck auseinandergesetzt und eine neuartige Synthesemethode entwickelt. Diese Methode zeichnet sich nicht nur durch verbesserte Lippensynchronität und Renderqualität aus, sondern ermöglicht auch eine kontrollierbare emotionale Darstellung in den generierten Sprechavataren.
Das Forschungsteam hat einen „Audio-zu-Geometrie-zu-Erscheinungsbild“-Mapping-Rahmen entwickelt. Dieser Rahmen prognostiziert zunächst aus Audiomerkmalen eine realistische 3D-Geometriefolge. Anschließend wird auf Basis dieser Geometrien das Erscheinungsbild des 3D-Sprechavatars synthetisiert, das durch 4D-Gaußsche Funktionen dargestellt wird. Dabei wird das Erscheinungsbild weiter in kanonische und dynamische Gaußsche Komponenten zerlegt, die durch Lernen aus Mehransichtsvideos fusioniert werden, um eine freie Ansicht der Sprechavatar-Animation zu rendern.
Besonders erwähnenswert ist, dass das EmoTalk3D-Forschungsteam auch die bisherigen Probleme bei der Erfassung dynamischer Gesichtsdetails wie Falten und subtiler Mimik gelöst hat. Die Ergebnisse zeigen, dass die Methode signifikante Vorteile bei der Generierung von hochrealistischen und emotionsgesteuerten 3D-Sprechavataren bietet und gleichzeitig eine bessere Renderqualität und Stabilität bei der Lippensynchronisation aufweist.
Derzeit sind der Code und der Datensatz des EmoTalk3D-Projekts unter einer angegebenen HTTPS-URL für Forscher und Entwickler weltweit verfügbar. Dieser innovative Durchbruch wird die Entwicklung im Bereich der 3D-Sprechavatar-Technologie zweifellos mit neuer Dynamik versorgen und zukünftig in Bereichen wie Virtual Reality, Augmented Reality und Filmherstellung Anwendung finden.