本日、階躍星辰と吉利汽車集団は、共同でStepシリーズの2つの多様な大規模言語モデル、Step-Video-T2V動画生成モデルとStep-Audio音声モデルをオープンソースとして公開することを発表しました。

その中でも、階躍Step-Video-T2V動画生成モデルは、パラメーター数と性能において世界をリードするレベルにあります。このモデルは300億のパラメーターを持ち、204フレーム、540Pの高解像度動画を直接生成でき、生成されたコンテンツの情報密度が高く、一貫性も高いことを保証します。評価結果によると、Step-Video-T2Vは、指示の遵守、モーションの滑らかさ、物理的な妥当性、美しさなどにおいて優れた性能を示し、既存の最良のオープンソース動画モデルを大幅に上回っています。

微信截图_20250218085337.png

現在、これらのモデルはどちらも躍問アプリで公開されており、開発者の皆様は自由に体験して貴重なご意見をお寄せいただけます。

階躍Step-Video-T2V動画生成モデルは、複雑な動き、美しい人物描写、想像力豊かなビジュアル表現において卓越した生成能力を発揮します。指示を正確に理解し、動画制作者の創造的な表現を効率的に支援します。優雅なバレエ、激しい空手、緊迫感あふれるバドミントン、高速回転の飛び込みなど、Step-Video-T2Vは物理法則に則ったリアルな映像を生成できます。

また、様々なカメラワークやショットの切り替えにも対応し、ダイナミックな映像表現を生成できます。生成される人物像はよりリアルで生き生きとしており、細部まで精巧に表現され、自然な表情をしています。

GitHub:

https://github.com/stepfun-ai/Step-Audio

Hugging Face:

https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b

技術レポート:

https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf