Lumina-T2Xは、テキスト記述から鮮明な画像、ダイナミックな動画、詳細な多視点3D画像、合成音声などを生成できる、先進的なテキストから任意のモダリティへの生成フレームワークです。ストリーミングベースの大規模拡散トランスフォーマー(Flag-DiT)を採用し、最大7億パラメータに対応、シーケンス長は最大128,000トークンに拡張可能です。Lumina-T2Xは、画像、動画、3Dオブジェクトの多視点ビュー、音声スペクトログラムを時空間潜在トークン空間に統合することで、任意の解像度、アスペクト比、長さの出力生成を可能にします。