FLOAT

Audio-gesteuerte Methode zur Erzeugung von sprechenden Porträtvideos basierend auf Flow Matching

Normales ProduktBildKünstliche IntelligenzPorträtanimation
FLOAT ist eine audio-gesteuerte Methode zur Erzeugung von sprechenden Porträtvideos, die auf einem Flow-Matching-Generierungsmodell basiert. Sie verlagert die Generierung von einem pixelbasierten latenten Raum in einen erlernten Bewegungs-Latentraum und ermöglicht so eine zeitlich konsistente Bewegungsdarstellung. Die Technik beinhaltet einen Transformer-basierten Vektorfeld-Prädiktor und weist einen einfachen und effizienten frameweisen Konditionsmechanismus auf. Darüber hinaus unterstützt FLOAT die sprachgesteuerte Emotionsverstärkung und kann ausdrucksstarke Bewegungen auf natürliche Weise integrieren. Umfangreiche Experimente zeigen, dass FLOAT bestehende audio-gesteuerte Methoden zur Erzeugung von sprechenden Porträts in Bezug auf visuelle Qualität, Bewegungsgetreue und Effizienz übertrifft.
Website öffnen

FLOAT Neueste Verkehrssituation

Monatliche Gesamtbesuche

2062

Absprungrate

55.17%

Durchschnittliche Seiten pro Besuch

1.1

Durchschnittliche Besuchsdauer

00:00:01

FLOAT Besuchstrend

FLOAT Geografische Verteilung der Besuche

FLOAT Traffic-Quellen

FLOAT Alternativen