上海人工知能研究所が小規模言語多モーダルデータセット「万巻・シルクロード2.0」をオープンソース化

AIbase基地

公開日AIニュース · 1 分で読めます · Apr 17, 2025

上海人工知能研究所が公開した「万巻・シルクロード2.0」多言語多モーダル語料庫が正式にオープンソース化されました。この語料庫は、既存のアラビア語、ロシア語、韓国語、ベトナム語、タイ語の5言語に加え、セルビア語、ハンガリー語、チェコ語の3つの希少言語データを追加し、テキスト、画像、音声、ビデオの4つのモーダルを網羅しています。データ総量は1150万件を超え、音声・ビデオの長さは2万6000時間以上に及び、小言語多モーダル分野における重要なリソースとなっています。

微信截图_20250417083637.png

「万巻・シルクロード2.0」は、多言語、大規模、多モーダル、高品質を特徴としています。言語数の拡張に加え、データモーダルと総量を全面的にアップグレードし、画像-テキスト、音声-テキスト、ビデオ-テキスト、特殊命令微調整（SFT）の4つのモーダルデータを追加しました。多モーダル研究の全チェーンを網羅しています。データは成熟した生産ラインとセキュリティ強化を経ており、フィルタリングアルゴリズムと現地の専門家による精密な手動注釈検査を組み合わせることで、多モーダル、多分野を網羅する高品質のデータセットとなり、文化観光、商業貿易、科学教育など様々なシーンに対応しています。

今回のオープンソース化の内容は以下の通りです。画像-テキストは200万件以上、音声-テキストは1600時間以上、ビデオ-テキストは2万5000時間以上、SFTデータは18万件が公開されました。オープンソースデータは様々な言語を網羅しており、開発者にとって豊富な多モーダルデータリソースを提供します。

「万巻・シルクロード2.0」は顕著なモデル賦能効果を示しています。70億パラメータの基本モデルで訓練した場合、モデルの総合性能は52.3％向上しました。700億パラメータの大規模モデルの訓練においても、12.8％の性能向上を維持しています。このデータセットにより、軽量モデルが多言語処理分野で、大規模モデルを凌駕する優れた性能を発揮し、多言語モデルの微調整を強力にサポートします。

データセットアドレス：

https://www.modelscope.cn/collections/wanjuansilu-20-a3d1a96dad6042

ワンクリック微調整フレームワーク：

https://github.com/modelscope/ms-swift

百万巻・絲路2.0 多モーダル言語モデル多言語モデル AIトレーニングデータ

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

ウィキペディア、AIトレーニングデータセットを公開、クローラーによるデータ取得を抑制

ウィキペディアは先日、Google傘下のデータサイエンスコミュニティプラットフォームKaggleとの協力により、人工知能モデルのトレーニング用に最適化されたデータセットを公開すると発表しました。この取り組みは、AI開発者がクローラープログラムを使用してウィキペディアのデータを収集する行為を減らし、プラットフォームの帯域幅とサーバーリソースを保護することを目的としています。このデータセットの内容には、構造化された英語とフランス語のウィキペディア情報が含まれており、機械可読性に優れ、AI開発者がモデリング、ファインチューニング、データ分析を容易に行うことができます。ウィキメディア財団は、このデータ...

Apr 18, 2025

作家たちがMetaによる著作権侵害を抗議、AIトレーニングデータへの無断利用で議論勃発

先週、約100名の作家がロンドンのMeta本社前で抗議行動を起こし、同社による著作権者の許可を得ないAIモデルトレーニングのための作品利用を非難しました。抗議者たちは「Meta、Meta、本の泥棒！」と叫び、中には「スローガンを書こうとしたが、盗まれるだろう」や「ザッカーバーグを本の元に戻せ」といったプラカードを掲げる者もいました。これは明らかにMeta CEOのマーク・ザッカーバーグ氏への皮肉です。以前から、ザッカーバーグ氏がLibGenと呼ばれる…（以下略）

Apr 7, 2025

人工知能と著作権：著作者の権利とAIトレーニングのニーズのバランスをどう取るのか？

近年、人工知能（AI）はホットな話題となっており、特にその利用と関連リスクに関する議論が激化しています。しかし、AIがどのようにデータを取得し、トレーニングを行うのかという問題もますます注目されています。最近、メルボルンにある出版社が、自社の著作物をAIトレーニングに使用したいという要望を著者らに伝えました。この動きは、著作権と知的財産権に関する重要な議論を引き起こしています。知的財産権の保護対象には、特許、商標、著作権、意匠が含まれ、その中でも著作権はAI分野において特に重要です。法律専門家は、著作権法が…

Mar 17, 2025

110

1000人のアーティストがAIへの著作権販売に抗議し「サイレント」アルバムを発表

1000人以上のアーティストが、英国政府によるAIへの著作権販売に抗議するため、新しいアルバムをリリースしました。このアルバムは、この問題に対する彼らの懸念を示すために、あえて無音のトラックで構成されています。

Feb 25, 2025

110

AIトレーニングデータの透明性に関する世界初のテンプレート発表、AI業界の透明化を推進

人工知能（AI）分野における透明性を推進する取り組みの一環として、コンピュータ・通信業界協会（CCIA）はブリュッセルとワシントンD.C.において、画期的な新たな取り組みとして、世界的な業界透明性レポート・テンプレートを発表しました。このテンプレートは、汎用人工知能（GPAI）モデルのトレーニングデータに対する一般の信頼と理解を高めることを目的としています。今回発表された「AIモデルトレーニングデータ透明性テンプレート」は、企業に対し、特定のGPAIモデルのトレーニングに使用されたデータの種類（例：ポッドキャスト、書籍など）を開示することを求めており、データの主要な…

Jan 14, 2025

1.9k

ハーバード大学、OpenAIとマイクロソフトの資金提供による大規模無料AIトレーニングデータセットを公開

ハーバード大学は木曜日、約100万冊のパブリックドメイン書籍を含む高品質なデータセットを公開すると発表しました。これは、誰でも大規模言語モデルやその他のAIツールをトレーニングするために利用できます。このデータセットは、ハーバード大学が新設した機関データイニシアチブ（Institutional Data Initiative）によって作成され、マイクロソフトとOpenAIの資金提供を受けています。収録されている書籍はすべて、Google ブックスプロジェクトでスキャンされた、著作権の保護期限が切れた作品です。

Dec 12, 2024

2.3k

AIデータゲート：OpenAIが証拠を誤って削除、メディア大手は著作権侵害で提訴

『ニューヨーク・タイムズ』と『デイリー・ニュース』は著作権訴訟で予期せぬ展開に直面。OpenAIのエンジニアが、重要な証拠となりうる仮想マシンの検索データを誤って削除したことで、注目を集めるこの訴訟に新たなドラマが加わった。水曜夜、ニューヨーク南地区合衆国地方裁判所に提出された書簡によると、両メディアの弁護士と技術専門家は、OpenAIのAIトレーニングデータセットの検索に150時間以上を費やしていた。しかし、11月14日、OpenAIのエンジニアが仮想マシンに保存されていたデータを誤って削除した。

Nov 21, 2024

1.6k

LAION、新たなAIデータセットRe-LAION-5Bを発表、児童性的虐待コンテンツへのリンクを完全に削除

LAIONは、CSAM（児童性的虐待素材）へのリンクを包括的に削除した世界初のAIトレーニングデータセットであるRe-LAION-5Bを発表しました。これは、児童性的虐待素材の問題に対処することを目的としています。このデータセットはLAION-5Bを大幅に改良したもので、Re-LAION-5B ResearchとResearch-Safeの2つのバージョンがあり、合計2236個のCSAMリンクが削除されています。そのうち1008個は児童保護団体のリストに掲載されていたものです。このデータセットは、テキストと画像のペアを55億個含んでおり、…

Sep 2, 2024

2.6k

国内初の億級パラメーター地震波大規模言語モデル「谛听」が成都で発表

先日、国家スーパーコンピューティング成都センター、中国地震局地球物理研究所、清華大学が共同開発した地震波大規模言語モデル「谛听」が四川省成都で正式に発表されました。このモデルは、国内初となる億級パラメーター規模の地震波大規模言語モデルであり、中国の地震学研究と人工知能技術の融合における重要なブレークスルーを意味します。

Jul 31, 2024

1.9k

AIの倫理性を高める：Source.Plusが質の高いAIトレーニングデータを提供

Spawningは、アーティストが自身の作品がオンラインで使用される際の管理権を強化することを目指しています。同社が発表した最新のプロジェクトSource.Plusは、AIモデルのトレーニングに使用する「著作権侵害のない」メディアコンテンツを選別することを目的としており、アーティストやクリエイターが作品の使用許諾をより詳細に管理できるようにします。

Jun 12, 2024

910

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要