Auf der Weltkonferenz für künstliche Intelligenz (WAIC) 2024 präsentierte SenseTime sein neues, steuerbares großes Sprachmodell zur Videogenerierung – Vimi. Vimi nutzt SenseTimes fortschrittliche Großsprachenmodell-Technologie und kann aus einem einzelnen Foto ein konsistentes Personenvideo mit übereinstimmenden Bewegungen generieren, wobei Mimik und Körperhaltung präzise gesteuert werden können. Das Modell unterstützt verschiedene Steuerungsmethoden, darunter Video, Animation, Audio und Text. Dank jahrelanger Erfahrung in der Gesichtsverfolgung und präziser Detailkontrolle erzeugt es Videos mit hoher Konsistenz und harmonischer Lichtsetzung.

Besonders hervorzuheben ist die Stabilität von Vimi. Es kann Einzelaufnahmen von Personenvideos mit einer Länge von über einer Minute generieren, ohne dass die Bildqualität im Laufe der Zeit nachlässt. Es passt die Umgebungsszenen an die Bewegungen der Person an, simuliert Kamerawinkeländerungen und sogar das Schütteln der Haare, um realistische visuelle Effekte zu erzielen. Darüber hinaus unterstützt Vimi die Simulation von Licht- und Schattenwechseln und bietet Videoerstellern ein hohes Maß an kreativer Freiheit.

微信截图_20240709140907.png

Die Vimi Kamera, die erste C-End-Anwendung, die auf dem Vimi-Großmodell basiert, richtet sich hauptsächlich an weibliche Nutzer und erfüllt deren Bedürfnisse nach Unterhaltung und kreativer Gestaltung. Nach dem Hochladen hochauflösender Personenbilder aus verschiedenen Blickwinkeln generiert die Vimi Kamera automatisch digitale Avatare und Porträtvideos in verschiedenen Stilen und bietet eine Vielzahl von Gestaltungsmöglichkeiten. Die Vimi Kamera unterstützt auch die Generierung lustiger Emojis aus einem einzelnen Bild und ermöglicht so eine personalisierte Kreation mit vielfältigen Funktionen.

Derzeit befindet sich die Vimi Kamera in der geschlossenen Beta-Phase. Interessierte Nutzer können sich über die Abonnierung des offiziellen WeChat-Accounts und die Anmeldung über den Anmelde-Link für einen Testzugang bewerben.