Mistral-Nemo-Base-2407

12B参数的大型语言模型

普通产品编程大型语言模型文本生成
Mistral-Nemo-Base-2407是由Mistral AI和NVIDIA联合训练的12B参数大型预训练生成文本模型。该模型在多语言和代码数据上进行了训练,显著优于相同或更小规模的现有模型。其主要特点包括:Apache 2.0许可证发布,支持预训练和指令版本,128k上下文窗口训练,支持多种语言和代码数据,是Mistral 7B的替代品。模型架构包括40层、5120维、128头维、14364隐藏维、32头数、8个kv头(GQA)、词汇量约128k、旋转嵌入(theta=1M)。该模型在多个基准测试中表现出色,如HellaSwag、Winogrande、OpenBookQA等。
打开网站

Mistral-Nemo-Base-2407 最新流量情况

月总访问量

20899836

跳出率

46.04%

平均页面访问数

5.2

平均访问时长

00:04:57

Mistral-Nemo-Base-2407 访问量趋势

Mistral-Nemo-Base-2407 访问地理位置分布

Mistral-Nemo-Base-2407 流量来源

Mistral-Nemo-Base-2407 替代品