audio2photoreal
Generiert fotorealistische menschliche Avatare aus Audiodaten.
Normales ProduktBildKISprachsynthese
audio2photoreal ist ein Open-Source-Projekt zur Generierung fotorealistischer Avatare aus Audiodaten. Es beinhaltet eine PyTorch-Implementierung, die aus Audioaufnahmen sprechende menschliche Figuren synthetisieren kann. Das Projekt bietet Trainingscode, Testcode, vorab trainierte Bewegungsmodelle und Zugriff auf Datensätze. Zu den Modellen gehören ein Gesichtsdiffusionsmodell, ein Körperdiffusionsmodell, ein Körper-VQ-VAE-Modell und ein Körper-Guidance-Transformer-Modell. Das Projekt ermöglicht es Forschern und Entwicklern, eigene Modelle zu trainieren und auf der Grundlage von Sprache hochwertige, realistische Avatare zu generieren.
audio2photoreal Neueste Verkehrssituation
Monatliche Gesamtbesuche
474564576
Absprungrate
36.20%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:34