北京のTuSimple(图森未来)科技有限公司は、2024年12月17日に初の「動画生成」大規模言語モデル「Ruyi」を発表し、Ruyi-Mini-7B版をオープンソース化しました。ユーザーはHugging Faceプラットフォームからダウンロードして利用できます。2015年設立のTuSimpleは、カリフォルニア州サンディエゴに本社を置き、アニメーションゲームや交通運輸業界など、様々な業界におけるAI技術の応用を専門としています。

Ruyi大規模言語モデルは、消費レベルのグラフィックボードでの動作を目的として設計されており、詳細な展開手順とComfyUIワークフローを提供することで、ユーザーが迅速に使い始めることができます。このモデルは、フレーム間の整合性、動作の滑らかさ、色彩表現、構図において優れた性能を発揮し、視覚的なナラティブに新たな可能性をもたらします。アニメやゲームのシーンに特化した深層学習を行い、ACG愛好家にとって理想的な創造のパートナーとなっています。

微信截图_20241217140324.png

Ruyiモデルは、384×384から1024×1024までの解像度、任意のアスペクト比、最長120フレーム/5秒の動画生成に対応した、複数解像度、複数時間の長さの生成をサポートしています。また、最初のフレームと最後のフレームを制御した生成、モーションの大きさの制御、5種類のレンズ制御にも対応しています。RuyiはDiTアーキテクチャに基づいており、Casual VAEモジュールとDiffusion Transformerで構成され、パラメーター数は約71億個、約2億個の動画クリップを使用してトレーニングされています。

Ruyiは技術的に大きな進歩を遂げていますが、手の変形、複数の人物がいる場合の顔の細部の崩れ、制御不能なトランジションなどの欠点も存在します。TuSimpleはこれらの問題の改善に取り組んでおり、今後のアップデートで修正する予定です。

将来展望として、TuSimpleはシーンのニーズに深く対応し、CUTを直接生成するというブレークスルーを目指しています。次回のリリースでは、異なるクリエイターのニーズに対応するため、2つのバージョンを提供する予定です。同社は、大規模言語モデルを活用してアニメーションやゲームコンテンツの開発期間とコストを削減することに尽力しており、Ruyi大規模言語モデルは既にキーフレームを入力することで5秒間のコンテンツを生成したり、2つのキーフレームを入力することでモデルが中間遷移コンテンツを生成したりすることが可能となり、開発期間の短縮を実現しています。

Hugging Face リンク :

https://huggingface.co/IamCreateAI/Ruyi-Mini-7B