急速に発展する人工知能分野において、開発者や組織は、高い計算需要、遅延の問題、真に柔軟なオープンソースモデルの不足など、多くの現実的な課題に直面しています。これらの問題はしばしば進歩を阻害し、多くの既存のソリューションは高価なクラウドインフラストラクチャを必要とするか、大きすぎてデバイス上で利用できないため、効率的で柔軟なモデルが緊急に必要とされています。

QQ_1741747624441.png

そこで、Reka AIは、ゼロから構築された21億パラメーターの推論モデル、Reka Flash3を発表しました。このモデルは、一般的な会話、コーディング支援、指示に従うこと、さらには関数呼び出しをサポートすることを目指しており、様々なアプリケーションの実用的な基盤となることを意図しています。そのトレーニングプロセスは、公開されているデータセットと合成データセットを組み合わせ、慎重な指示調整とREINFORCE Leave One-Out(RLOO)法による強化学習を用いています。この綿密なトレーニング方法は、能力と効率のバランスを取ることを目指しており、Reka Flash3を多くの同類モデルの中で際立たせています。

技術的な面では、Reka Flash3は、柔軟性とリソース効率の両方を備えた複数の特性を備えています。顕著な特徴の1つは、最大32kトークンのコンテキスト長を処理できることであり、長文ドキュメントや複雑なタスクを処理する際に過剰な負担をかけることなく対応できます。さらに、このモデルは「予算強制」メカニズムを導入しており、特定の<reasoning>タグを使用して、ユーザーはモデルの思考過程のステップを制限することができ、計算コストを増やすことなく一貫したパフォーマンスを維持できます。同時に、Reka Flash3はデバイス上での展開に非常に適しており、完全精度サイズは39GB(fp16)ですが、4ビット量子化により11GBに圧縮できます。この柔軟性により、ローカル展開がよりスムーズになり、より大きくリソースを消費するモデルと比較して優れています。

評価指標とパフォーマンスデータは、このモデルの実用性をさらに裏付けています。例えば、Reka Flash3のMMLU-Proでのスコアは65.0と中程度ですが、ウェブ検索などの追加の知識源と組み合わせることで、その競争力は依然として無視できません。さらに、Reka Flash3の多言語能力は、WMT’23のCOMETスコアで83.2を達成しており、主に英語に焦点を当てているものの、英語以外の入力に対する適切なサポートを示しています。これらの結果と、QwQ-32Bなどの同等のモデルと比較した効率的なパラメーター数から、実用的なアプリケーションにおけるその可能性が強調されています。

QQ_1741747656664.png

結論として、Reka Flash3は、よりアクセスしやすい人工知能ソリューションを表しています。パフォーマンスと効率の巧妙なバランスを取ることで、このモデルは、一般的なチャット、コーディング、指示タスクに堅牢で柔軟な選択肢を提供します。そのコンパクトな設計、強化された32kトークンコンテキストウィンドウ、そして革新的な予算強制メカニズムにより、デバイス展開と低遅延アプリケーションに適した実用的な選択肢となっています。能力と管理可能なモデルの両方を求める研究者や開発者にとって、Reka Flash3は間違いなく期待できる基盤を提供します。

紹介:https://www.reka.ai/news/introducing-reka-flash

モデル:https://huggingface.co/RekaAI/reka-flash-3

要点:

🌟 Reka Flash3は、Reka AIが発表したオープンソースの推論モデルで、21億のパラメーターを持ち、様々なアプリケーションシナリオに適しています。

💻 このモデルは32kトークンのコンテキスト処理をサポートし、複雑なタスクの処理に適しており、デバイス上で効率的に動作します。

📈 パフォーマンスデータは、Reka Flash3が多言語能力と実用アプリケーションにおいて優れたパフォーマンスを示しており、アクセスしやすいAIソリューションであることを示しています。