上海階躍星辰智能科技有限公司は、最新の画像から動画を生成するモデル「Step-Video-TI2V」をオープンソースとして公開しました。このモデルは300億パラメータのStep-Video-T2Vをベースに訓練されており、102フレーム、5秒、540P解像度の動画を生成できます。運動量の制御とカメラワークの制御という2つの主要な特徴を持ち、特にアニメーション効果において優れた性能を発揮します。

微信截图_20250320143140.png

Step-Video-TI2Vの開発においては、2つの重要な最適化が行われました。まず、画像条件を導入することで、生成された動画と元の画像の一貫性を向上させました。従来のcross-attention方式とは異なり、画像に対応するベクトル表現とDiTの最初のフレームに対応するベクトル表現をチャネル次元で直接連結することで、生成された動画と入力画像の高い一致性を確保しています。次に、AdaLNモジュールを使用して動画の動的スコア情報を導入し、ユーザーが動画生成時に異なる運動レベルを指定できるようにすることで、動画の動的範囲を正確に制御し、動的性、安定性、一貫性のバランスを取っています。さらに、主体動作とカメラワークを専門的に正確にアノテーションすることで、主体動作の動的性とカメラワークの効果をさらに向上させています。

Step-Video-TI2Vの主な特徴は、運動量の制御、様々なカメラワークの制御、優れたアニメーション効果、そして複数のサイズでの動画生成に対応していることです。ユーザーは創作ニーズに合わせて動的な映像と静的な映像を自由に切り替え、基本的なパン、チルト、ズーム、トラッキングショットから複雑な映画レベルのカメラワークまで、様々な動画を生成できます。このモデルはアニメーション系のタスクで特に優れた性能を発揮し、アニメーション制作や短編動画制作などに最適です。また、横長、縦長、正方形など、様々なサイズの動画生成に対応しており、様々なプラットフォームのニーズに対応できます。

体験アドレス:

https://yuewen.cn/videos

GitHub:

https://github.com/stepfun-ai/Step-Video-TI2V

Github-ComfyUI:

https://github.com/stepfun-ai/ComfyUI-StepVideo