Das Alibaba-Team hat den Porträtvideogenerierungsrahmen EMO veröffentlicht, der in der Lage ist, Porträtvideos mit reichhaltigen Gesichtsausdrücken und Kopfhaltungen zu generieren. EMO nutzt ein Referenznetzwerk, um Merkmale aus Referenzbildern und Bewegungsframes zu extrahieren, verarbeitet Audio über einen vortrainierten Audio-Encoder und bettet es ein, und kombiniert mehrrahmige Rauschen und Gesichtsbereichsmasken, um Videos zu generieren. Die Ergebnisse zeigen, dass EMO bestehende Methoden in Bezug auf Ausdruckskraft und Realismus übertrifft. Potenzielle Anwendungen dieses Modells werden das Niveau der digitalen Medien- und virtuellen Inhaltsgenerierungstechnologie verbessern, könnten aber auch als Werkzeug für kriminelle Aktivitäten missbraucht werden.
Alibaba veröffentlicht EMO, ein Framework zur Generierung von Porträtvideos
