2024年の世界人工知能大会(WAIC)で、商湯科技は制御可能な人物ビデオ生成大規模モデル「Vimi」を発表しました。Vimiモデルは商湯科技の先進的な大規模モデル技術を活用し、一枚の写真から目標の動作と一致する人物ビデオを生成し、表情と体の動きを正確に制御できます。このモデルは、ビデオ、アニメーション、音声、テキストなど、さまざまな駆動方式に対応しており、長年培ってきた顔の追跡技術と細部への正確な制御能力により、一貫性が高く、光と影が調和のとれたビデオコンテンツを生成できます。

Vimiの安定性は特に優れており、1分以上の長尺のシングルショット人物ビデオを生成でき、画質は時間経過とともに劣化しません。また、人物の動作に合わせて環境シーンを調整し、カメラアングルの変化や髪の毛の揺れなどをシミュレートすることで、リアルな視覚効果を提供します。さらに、Vimiは光と影の変化シミュレーションにも対応しており、ビデオクリエイターに豊富な創作の自由度を提供します。

微信截图_20240709140907.png

Vimiカメラは、Vimi大規模モデルをベースとした最初のC向けアプリケーションであり、主に女性ユーザーをターゲットに、エンターテインメント創作ニーズに対応しています。ユーザーが高解像度の人物画像をさまざまな角度からアップロードすると、Vimiカメラは自動的にデジタル分身とさまざまなスタイルのポートレートビデオを生成し、多様な生成スタイルを提供します。Vimiカメラは、一枚の写真から面白い人物絵文字を生成することもでき、遊び方は多様で、個性的な創作が可能です。

現在、Vimiカメラはクローズドベータテストを実施中です。興味のあるユーザーは、公式アカウントをフォローして予約リンクにアクセスし、体験を申し込むことができます。