UniMuMo
統一テキスト、音楽、動作生成モデル
一般製品音楽人工知能機械学習
UniMuMoは、任意のテキスト、音楽、動作データを入力条件として、3種類のモダリティすべてを跨る出力を生成できるマルチモーダルモデルです。このモデルは、音楽、動作、テキストをトークンベースの表現に変換し、統一されたエンコーダー・デコーダー・トランスフォーマーアーキテクチャによってこれらのモダリティを橋渡しします。既存の単一モダリティ事前学習モデルをファインチューニングすることで、計算コストを大幅に削減しています。UniMuMoは、音楽、動作、テキストモダリティのすべての単方向生成ベンチマークテストで競争力のある結果を達成しています。
UniMuMo 最新のトラフィック状況
月間総訪問数
231
直帰率
42.88%
平均ページ/訪問
1.0
平均訪問時間
00:00:00