Mistral-Nemo-Instruct-2407
多言語とコードデータに対応した大規模言語モデル
一般製品プログラミング大規模言語モデル多言語対応
Mistral-Nemo-Instruct-2407は、Mistral AIとNVIDIAが共同でトレーニングした大規模言語モデル(LLM)であり、Mistral-Nemo-Base-2407の命令微調整版です。このモデルは多言語とコードデータでトレーニングされており、同規模またはそれ以下の既存モデルを大幅に上回ります。主な特徴は以下のとおりです。多言語とコードデータのトレーニングに対応、128kコンテキストウィンドウ、Mistral 7Bの代替として利用可能。モデルアーキテクチャは40層、5120次元、128ヘッド次元、1436隠れ次元、32ヘッド、8個のkvヘッド(GQA)、2^17語彙(約128k)、回転埋め込み(theta=1M)です。このモデルは、HellaSwag(0-shot)、Winogrande(0-shot)、OpenBookQA(0-shot)など、様々なベンチマークテストで優れた性能を示しています。
Mistral-Nemo-Instruct-2407 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44