Samba
高効率無限コンテキスト言語モデルの公式実装
プレミアム新製品プログラミング自然言語処理機械学習
Sambaはシンプルながらも強力な混合モデルであり、無限のコンテキスト長を特徴としています。そのアーキテクチャは非常にシンプルです。Samba = Mamba + MLP + スライディングウィンドウアテンション + 階層型MLPスタック。Samba-3.8BモデルはPhi3データセットで3.2兆トークンを用いてトレーニングされ、MMLU、GSM8K、HumanEvalなどの主要なベンチマークテストにおいて、Phi3-miniを大きく上回る性能を示しました。Sambaは、最小限の指示調整で完璧なロングコンテキスト検索能力を実現し、シーケンス長に対して線形的な計算量を維持します。これにより、Samba-3.8B-instructは、ロングコンテキスト要約などの下流タスクで優れた性能を発揮します。
Samba 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34