魔搭コミュニティは、OneLLMと呼ばれるマルチモーダルアライメント統合フレームワークをオープンソース化しました。このフレームワークは、汎用エンコーダーと統一的な投影モジュールを利用して、LLMとマルチモーダル入力をアライメントします。画像、音声、ビデオなど、多様なモーダルデータの理解をサポートし、ビデオ-テキスト、音声-ビデオ-テキストなどのタスクにおいて、強力なゼロショット能力を示します。OneLLMのオープンソースコードはGitHubで公開されており、そこで関連するモデルウェイトとモデルの創造空間を入手できます。