Teuken-7Bは、70億個のパラメータを持つ言語モデルで、Hugging Faceで公開されました。EUの公用語24言語すべてに対応しています。このモデルは、EUのOpenGPT-X研究プロジェクトによって開発され、オープンソースとして利用可能です。英語中心のAI言語モデルとは異なり、Teuken-7Bはゼロから構築されており、トレーニングデータの約半分は英語以外のヨーロッパ言語で構成されています。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
開発チームによると、Teuken-7Bはトレーニングされたすべての言語で優れたパフォーマンスを示し、特に英語以外の言語処理において信頼性の高さが印象的です。ヨーロッパ言語における言語モデルのパフォーマンスを測定するために、プロジェクトチームは英語中心の従来のベンチマークテストを超えた、新しいヨーロッパLLMランキングを作成しました。
この発表は、多言語AIモデルの開発におけるヨーロッパの大きな進歩を示しており、開発者にとって、多言語アプリケーションや研究をサポートする強力で多様なツールとなります。