Ein Forschungsteam von ByteDance hat kürzlich ein KI-System namens OmniHuman entwickelt, das einzelne Fotos in realistische Videos verwandeln kann und Personen beim Sprechen, Singen und in natürlichen Bewegungen zeigt. Diese bahnbrechende Technologie könnte die digitale Unterhaltung und Kommunikation revolutionieren.
OmniHuman kann Ganzkörpervideos generieren, die Gesten und Bewegungen einer Person beim Sprechen zeigen und übertrifft damit bisherige KI-Modelle, die nur Gesichter oder Oberkörper animieren konnten. Der Kern dieser Technologie liegt in der Kombination von Text-, Audio- und Körperbewegungsdaten als Eingabe. Durch eine innovative Methode namens „vollständig konditioniertes“ Training kann die KI aus einem größeren und reichhaltigeren Datensatz lernen.
Das Forschungsteam weist darauf hin, dass OmniHuman mit über 18.700 Stunden an menschlichen Videodaten trainiert wurde und dadurch bemerkenswerte Fortschritte erzielt hat. Durch die Einbeziehung verschiedener konditionaler Signale (z. B. Text, Audio und Pose) wurde nicht nur die Qualität der Videogenerierung verbessert, sondern auch die Datenverschwendung reduziert.
In einem auf arXiv veröffentlichten Artikel erwähnen die Forscher, dass die End-to-End-Technologien für die menschliche Animation in den letzten Jahren zwar erhebliche Fortschritte gemacht haben, aber bestehende Methoden bei der Skalierung auf größere Anwendungen immer noch Einschränkungen aufweisen.
OmniHuman bietet ein breites Anwendungspotenzial, z. B. für die Erstellung von Präsentationsvideos oder die Demonstration von Musikinstrumenten. Tests haben gezeigt, dass die Technologie in mehreren Qualitätsmetriken bestehende Systeme übertrifft und eine herausragende Leistung aufweist. Diese Entwicklung findet in einem zunehmend wettbewerbsintensiven Umfeld der KI-Videogenerierung statt, in dem auch Unternehmen wie Google, Meta und Microsoft ähnliche Technologien verfolgen.
Obwohl OmniHuman das Potenzial für revolutionäre Veränderungen in der Unterhaltungsproduktion, der Erstellung von Bildungsinhalten und der digitalen Kommunikation bietet, wirft es auch Bedenken hinsichtlich des möglichen Missbrauchs synthetischer Medien auf. Das Forschungsteam wird seine Forschungsergebnisse auf einer kommenden Computer Vision Konferenz vorstellen, wobei Zeitpunkt und Konferenz noch nicht bekannt gegeben wurden.
Artikel:https://arxiv.org/pdf/2502.01061
Wichtigste Punkte:
🌟 OmniHuman ist eine neue KI, die einzelne Fotos in realistische Ganzkörpervideos umwandeln kann.
📊 Die Technologie wurde mit 18.700 Stunden an menschlichen Videodaten trainiert und kombiniert verschiedene Eingabesignale, um die Generierungsergebnisse zu verbessern.
⚖️ Trotz des großen Anwendungspotenzials gibt es Bedenken hinsichtlich des möglichen Missbrauchs synthetischer Medien.