OmniHuman-1 ist ein End-to-End-Multimodal-Framework zur bedingten Generierung von menschlichen Videos. Es kann aus einem einzelnen Porträtbild und Bewegungssignalen (wie Audio, Video oder einer Kombination davon) menschliche Videos generieren. Die Technologie überwindet das Problem der Knappheit hochwertiger Daten durch eine gemischte Trainingsstrategie, unterstützt Bilder mit beliebigem Seitenverhältnis und erzeugt realistische menschliche Videos. Es zeigt besonders bei schwachen Eingangssignalen (insbesondere Audio) eine hervorragende Leistung und eignet sich für verschiedene Szenarien wie virtuelle Moderatoren und Videoproduktion.