上海人工知能研究所が公開した「万巻・シルクロード2.0」多言語多モーダル語料庫が正式にオープンソース化されました。この語料庫は、既存のアラビア語、ロシア語、韓国語、ベトナム語、タイ語の5言語に加え、セルビア語、ハンガリー語、チェコ語の3つの希少言語データを追加し、テキスト、画像、音声、ビデオの4つのモーダルを網羅しています。データ総量は1150万件を超え、音声・ビデオの長さは2万6000時間以上に及び、小言語多モーダル分野における重要なリソースとなっています。

微信截图_20250417083637.png

「万巻・シルクロード2.0」は、多言語、大規模、多モーダル、高品質を特徴としています。言語数の拡張に加え、データモーダルと総量を全面的にアップグレードし、画像-テキスト、音声-テキスト、ビデオ-テキスト、特殊命令微調整(SFT)の4つのモーダルデータを追加しました。多モーダル研究の全チェーンを網羅しています。データは成熟した生産ラインとセキュリティ強化を経ており、フィルタリングアルゴリズムと現地の専門家による精密な手動注釈検査を組み合わせることで、多モーダル、多分野を網羅する高品質のデータセットとなり、文化観光、商業貿易、科学教育など様々なシーンに対応しています。

今回のオープンソース化の内容は以下の通りです。画像-テキストは200万件以上、音声-テキストは1600時間以上、ビデオ-テキストは2万5000時間以上、SFTデータは18万件が公開されました。オープンソースデータは様々な言語を網羅しており、開発者にとって豊富な多モーダルデータリソースを提供します。

「万巻・シルクロード2.0」は顕著なモデル賦能効果を示しています。70億パラメータの基本モデルで訓練した場合、モデルの総合性能は52.3%向上しました。700億パラメータの大規模モデルの訓練においても、12.8%の性能向上を維持しています。このデータセットにより、軽量モデルが多言語処理分野で、大規模モデルを凌駕する優れた性能を発揮し、多言語モデルの微調整を強力にサポートします。

データセットアドレス:

https://www.modelscope.cn/collections/wanjuansilu-20-a3d1a96dad6042

ワンクリック微調整フレームワーク:

https://github.com/modelscope/ms-swift