智源、世界最大の中国語・英語意味ベクトルモデル訓練データセットMTPを発表

站长之家

公開日AIニュース · 1 分で読めます · Sep 18, 2023

MTPデータセット公開

北京智源人工智能研究院は、世界最大規模の中英両言語のセマンティックベクトルモデル学習用データセット「MTP」を公開しました。データ規模は3億ペアに達します。

このデータセットは、多様なソースから収集された中英のテキストペアを含んでおり、中英両言語のセマンティックベクトルモデルの学習にとって重要な基盤となります。

智源研究院は、データが巨大言語モデルの学習に極めて重要であり、人工知能の協調的イノベーションを促進すると述べています。

このデータセットの公開は、中国語モデルの学習におけるデータ不足問題の解決に繋がるものと期待されています。

智源研究院とテンセント、戦略的提携を発表　大規模モデル、AI等の応用展開を促進

智源研究院とテンセントグループは、2024年12月18日に戦略的提携契約を締結しました。両者は大規模モデルの研究開発、人工知能技術の最先端研究、オープンソースエコシステム構築など、複数の分野で緊密に協力していきます。提携契約に基づき、智源研究院とテンセントはそれぞれの強みを活かし、大規模モデル技術と産業現場の深い融合を推進し、多様な計算環境下における大規模モデルの学習と推論最適化技術ソリューションを探求します。また、技術開発と応用促進のため、オープンで革新的なソフト・ハードウェアエコシステムの構築を目指します。

智源研究院、世界初の中国語大規模言語モデル論争プラットフォームFlagEval Debateを発表

北京智源人工知能研究院（BAAI）は最近、世界初の中国語大規模言語モデル論争プラットフォームFlagEval Debateを発表しました。この新しいプラットフォームは、モデル間の論争という競争メカニズムを通じて、大規模言語モデルの能力評価のための新しい測定方法を提供することを目的としています。これは、智源モデル対戦評価サービスFlagEval大規模言語モデル競技場の拡張であり、大規模言語モデル間の能力の違いを識別することを目標としています。

智源研究院、中文インターネットコーパスCCI3.0を発表 1000GBのデータセットを含む

2024北京文化フォーラムにおいて、北京智源人工知能研究院（BAAI）は、新世代の中文インターネットコーパスCCI3.0（Chinese Corpora Internet）の正式発表を行いました。データの共同構築と共有を促進します。CCI3.0は1000GBのデータセットと498GBの高品質サブセットCCI3.0-HQを含み、2023年11月のCCI1.0の最初のオープンソース化、2024年4月のCCI2.0発表に続く重要なアップデートとなります。

百度と智源研究院が戦略協定を締結、大規模言語モデルなどで協業

北京百度網訊科技有限公司と北京智源人工知能研究院は本日、正式な戦略協力協定を締結したことを発表しました。両者は大規模言語モデルなどの分野で深層的な協業を行い、人工知能の産学連携エコシステムを共同で構築します。百度は2010年から人工知能の全面的な展開を開始しており、昆侖チップ、飛槳深層学習プラットフォーム、文心大模型から応用まで、全スタック展開を行っている世界でも数少ない人工知能企業です。

AIニュース