In den letzten Jahren hat die rasante Entwicklung von künstlicher Intelligenz und Computer Vision die Interaktion zwischen Mensch und Computer immer lebendiger und ausdrucksstärker gemacht. Besonders im Bereich der Animationsherstellung ist die Erzeugung dynamischer Videos aus statischen Bildern ein wichtiger Forschungsschwerpunkt.

Vor kurzem wurde eine neue Technologie namens „DisPose“ entwickelt, die durch die Entkopplung der Positurführung eine kontrolliertere Animation von Personenbildern ermöglicht. Einfach ausgedrückt: DisPose ermöglicht es, ein Aktionsvideo und eine Referenzperson einzugeben, damit die Referenzperson die Aktionen im Video ausführt.

Der Kern der DisPose-Technologie liegt in der Rekonstruktion und Nutzung traditioneller spärlicher Positionsinformationen. Traditionelle Methoden verlassen sich oft auf spärliche Skelett-Positurführungen, die bei der dynamischen Videogenerierung oft nicht genügend Steuersignale liefern und zu ungenauen Animationseffekten führen. Um dies zu beheben, schlägt DisPose eine neue Methode vor, die spärliche Positionsinformationen in Bewegungsfeld-Guidance und entsprechende Schlüsselpunkte umwandelt, um eine genauere Bewegungsgenerierung zu ermöglichen.

Konkret berechnet DisPose zunächst ein spärliches Bewegungsfeld aus der Skelett-Positur und führt basierend auf dem Referenzbild eine Methode zur Generierung eines dichten Bewegungsfelds ein. Diese Methode liefert nicht nur Bewegungssignale auf Regionalebene, sondern bewahrt auch die Allgemeingültigkeit der Steuerung durch spärliche Positur. Gleichzeitig extrahiert DisPose aus dem Referenzbild Diffusionsmerkmale, die den Positur-Schlüsselpunkten entsprechen, und überträgt diese Merkmale durch die Berechnung mehrskaliger Punktkorrespondenzen auf die Zielpositur, um die Konsistenz des Aussehens zu verbessern.

Um diese innovative Technologie problemlos in bestehende Modelle zu integrieren, schlagen die Forscher auch eine pluginartige hybride ControlNet-Architektur vor. Diese Architektur verbessert die Qualität und Konsistenz der generierten Videos, ohne die Parameter des bestehenden Modells zu ändern. Durch umfangreiche qualitative und quantitative Experimente zeigt DisPose im Vergleich zu aktuellen Technologien deutliche Vorteile und deutet auf zukünftige Entwicklungen in der Animationsherstellung hin.

DisPose verbessert die Ausdruckskraft und Steuerbarkeit der Personenanimation durch die Optimierung der Nutzung von Positionsinformationen. Dieser Fortschritt ist nicht nur von wissenschaftlicher Bedeutung, sondern eröffnet auch neue Möglichkeiten für die zukünftige Animationsindustrie.

Projektseite: https://lihxxx.github.io/DisPose/

Wichtigste Punkte:

📍 DisPose ist eine neue Technologie für die Personenanimation, die durch die Entkopplung der Positurführung eine genauere dynamische Generierung ermöglicht.

🎨 Diese Technologie wandelt spärliche Positionsinformationen in Bewegungsfeld-Guidance und entsprechende Schlüsselpunkte um und liefert detaillierte Bewegungssignale.

🔧 Die von den Forschern vorgeschlagene hybride ControlNet-Architektur verbessert effektiv die Qualität und Konsistenz der generierten Videos.