Metaは最近、次世代のオープンソースモデルシリーズLlama 3.1を発表しました。このシリーズには、4050億パラメータのバージョンが含まれており、その性能はGPT-4などのクローズドソースモデルに匹敵し、場合によってはベンチマークテストで上回る結果も出ています。Llama 3.1-8B-Instructは、このシリーズの80億パラメータのバージョンで、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、スペイン語、ヒンディー語、タイ語に対応し、コンテキストの長さは最大131072トークン、知識のカットオフ日は2023年12月まで更新されています。

Llama 3.1-8B-Instructの能力を向上させるために、Metaはトレーニングに4050億パラメータのより大きなモデルによって生成された2500万件以上の合成データを使用しました。これにより、Llama 3.1-8B-Instructは、コードや数学などのテストでGPT-3.5 Turboに匹敵する認知能力と推論能力を示しています。

微信截图_20240725083410.png

OpenBuddyはLlama 3.1-8B-Instructモデルを利用し、少量の中国語データでトレーニングすることで、中国語の質問応答とクロスリンガルトランスレーション機能を備えた次世代のオープンソースクロスリンガルモデルであるOpenBuddy-Llama3.1-8B-v22.1-131Kを発表しました。Llama 3.1自体は中国語に対応していませんが、トレーニング後、このモデルは概念の混同しやすい問題において、通常はより大きなモデルでしか生成できないような回答を生成することができ、より強力な認知能力を示しています。

しかし、トレーニングデータセットと時間の制約により、OpenBuddy-Llama3.1-8B-v22.1は中国語の知識、特に伝統文化に関する知識にまだ限界があります。それにもかかわらず、このモデルは長文理解などのタスクで比較的安定したパフォーマンスを示しており、これは元々の長文処理能力によるものです。

今後、OpenBuddyは80億パラメータと700億パラメータのモデルをより大規模にトレーニングして、モデルの中国語知識、長文処理能力、認知能力を向上させ、4050億パラメータモデルの微調整の可能性を探求する予定です。

プロジェクトアドレス:https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k