Lumina-T2X
あらゆるモダリティへのテキスト生成を統合したフレームワーク
一般製品画像テキストから画像テキストから動画
Lumina-T2Xは、テキスト記述から鮮明な画像、ダイナミックな動画、詳細な多視点3D画像、合成音声などを生成できる、先進的なテキストから任意のモダリティへの生成フレームワークです。ストリーミングベースの大規模拡散トランスフォーマー(Flag-DiT)を採用し、最大7億パラメータに対応、シーケンス長は最大128,000トークンに拡張可能です。Lumina-T2Xは、画像、動画、3Dオブジェクトの多視点ビュー、音声スペクトログラムを時空間潜在トークン空間に統合することで、任意の解像度、アスペクト比、長さの出力生成を可能にします。
Lumina-T2X 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34