この度、CohereはAyaプロジェクトを通じて基礎モデルの言語格差を縮小することを目指し、2つの新しいオープンソースAIモデルを発表しました。Aya Expanse 8Bと35Bと名付けられたこの2つのモデルは、Hugging Faceで利用可能になりました。これらのモデルの導入により、23言語のAIパフォーマンスが大幅に向上しました。

image.png

Cohereはブログで、8Bパラメーターモデルにより世界中の研究者がより簡単にブレークスルーを実現できるようになり、32Bパラメーターモデルは業界をリードする多言語能力を提供すると述べています。

Ayaプロジェクトの目標は、英語以外の言語の基礎モデルへのアクセスを拡大することです。これ以前、Cohereの研究部門は昨年Aya計画を開始し、2月には101言語に対応したAya101大規模言語モデル(LLM)を発表しました。さらに、Cohereは他の言語でのモデルトレーニングを支援するためにAyaデータセットも公開しました。

Aya Expanseモデルは、Aya101の多くのコアメソッドを構築プロセスで採用しています。Cohereは、Aya Expanseの改善は、長年にわたる機械学習のブレークスルー分野におけるコアビルディングブロックの再考の結果であると述べています。彼らの研究の方向性は、主に言語格差の縮小に集中しており、データアービトラージ、一般的なパフォーマンスと安全性のための嗜好トレーニング、モデルマージなど、いくつかの重要なブレークスルーを達成しました。

複数のベンチマークテストにおいて、Cohereは、Aya Expanseの2つのモデルが、Google、Mistral、Metaなどの同規模のAIモデルを上回ったと述べています。

特に、Aya Expanse 32Bは、多言語ベンチマークテストでGemma 227B、Mistral 8x22B、さらにはより大規模なLlama 3.170Bを上回りました。一方、小型の8BモデルもGemma 29B、Llama 3.18B、Ministral 8Bを上回り、勝率は60.4%から70.6%に及びました。

image.png

理解しにくいコンテンツの生成を避けるため、Cohereはデータアービトラージと呼ばれるデータサンプリング手法を採用しています。この手法は、特にリソースの少ない言語の場合、モデルのトレーニングをより効果的に行うことができます。さらに、Cohereはモデルを「グローバルな嗜好」に導き、異なる文化や言語の視点を取り入れることで、モデルのパフォーマンスと安全性を向上させています。

CohereのAya計画は、LLMが英語以外の言語の研究でより良いパフォーマンスを発揮できるようにすることを目指しています。多くのLLMは最終的に他の言語バージョンをリリースしますが、モデルのトレーニングにおいて、特にリソースの少ない言語ではデータ不足の問題に直面することがよくあります。そのため、Cohereの取り組みは、多言語AIモデルの構築に大きく貢献しています。

公式ブログ: https://cohere.com/blog/aya-expanse-connecting-our-world

要点:

🌍 **Cohereが2つの新しいAIモデルを発表**し、基礎モデルの言語格差を縮小、23言語のパフォーマンス向上を実現。

💡 **Aya Expanseモデルは優れたパフォーマンス**を示し、多言語ベンチマークテストで多くの競合他社を上回った。

🔍 **データアービトラージ手法**により、低品質なコンテンツの生成を回避し、グローバルな文化と言語の視点に注目することで、多言語AIのトレーニング効果を向上。