FLOAT
Audio-gesteuerte Methode zur Erzeugung von sprechenden Porträtvideos basierend auf Flow Matching
Normales ProduktBildKünstliche IntelligenzPorträtanimation
FLOAT ist eine audio-gesteuerte Methode zur Erzeugung von sprechenden Porträtvideos, die auf einem Flow-Matching-Generierungsmodell basiert. Sie verlagert die Generierung von einem pixelbasierten latenten Raum in einen erlernten Bewegungs-Latentraum und ermöglicht so eine zeitlich konsistente Bewegungsdarstellung. Die Technik beinhaltet einen Transformer-basierten Vektorfeld-Prädiktor und weist einen einfachen und effizienten frameweisen Konditionsmechanismus auf. Darüber hinaus unterstützt FLOAT die sprachgesteuerte Emotionsverstärkung und kann ausdrucksstarke Bewegungen auf natürliche Weise integrieren. Umfangreiche Experimente zeigen, dass FLOAT bestehende audio-gesteuerte Methoden zur Erzeugung von sprechenden Porträts in Bezug auf visuelle Qualität, Bewegungsgetreue und Effizienz übertrifft.
FLOAT Neueste Verkehrssituation
Monatliche Gesamtbesuche
2062
Absprungrate
55.17%
Durchschnittliche Seiten pro Besuch
1.1
Durchschnittliche Besuchsdauer
00:00:01