Toraは、拡散トランスフォーマー(DiT)に基づく動画生成モデルです。テキスト、視覚、軌跡条件を統合することで、動画コンテンツのダイナミクスを正確に制御できます。ToraはDiTの拡張性を最大限に活用し、様々な持続時間、アスペクト比、解像度で高品質な動画コンテンツを生成できます。運動の忠実度と物理的な世界の運動シミュレーションにおいて優れた性能を発揮し、動画コンテンツ制作に新たな可能性をもたらします。