MTPデータセット公開

北京智源人工智能研究院は、世界最大規模の中英両言語のセマンティックベクトルモデル学習用データセット「MTP」を公開しました。データ規模は3億ペアに達します。

このデータセットは、多様なソースから収集された中英のテキストペアを含んでおり、中英両言語のセマンティックベクトルモデルの学習にとって重要な基盤となります。

智源研究院は、データが巨大言語モデルの学習に極めて重要であり、人工知能の協調的イノベーションを促進すると述べています。

このデータセットの公開は、中国語モデルの学習におけるデータ不足問題の解決に繋がるものと期待されています。