商湯科技は、画期的な「Vimi」という制御可能な人物ビデオ生成大規模モデルを発表しました。
商湯科技の強力な「日日新」大規模モデル技術に基づいて開発されたVimiは、かつてない柔軟性を備えたビデオ生成を実現しました。アクションビデオ、精緻なアニメーション、豊富な音声素材、さらにはテキストの説明など、多様な入力を受け入れ、駆動要素として人物画像を正確に制御・変換し、目標とする動作と完全に一致する人物ビデオを生成します。このプロセスは、AI技術が複雑な状況に高度に適応できることを示すと同時に、商湯科技のビデオ生成技術における深い蓄積を反映しています。
特に注目すべきは、Vimiの優れた制御性です。従来の画像表情制御技術の限界を超え、人物の表情変化を繊細に調整できるだけでなく、体の動きも正確に制御できます。この画期的な能力により、Vimiは論理的で自然なビデオコンテンツを生成することができ、同時に、髪、衣装、背景などの細部処理もかつてないほど精緻で、光と影の自然な変化に対応し、視聴者に没入型の視覚体験を提供します。
ビデオ生成の安定性と長さにおいても、Vimiは卓越した能力を示しています。1分間のシングルショット人物ビデオを安定して生成でき、これは既存の大規模モデルAIビデオ生成の長さに関する制限を突破する成果です。さらに重要なのは、ビデオの長さが増加しても、Vimiが生成するビデオ画質は常に一定で、劣化や歪みが発生せず、ビデオコンテンツの一貫性と高品質を確保している点です。
体験申請アドレス:https://www.wjx.cn/vm/mhSxfGv.aspx