Mistral AI发布大型语言模型Mistral Large 2 接近Llama 405B

Mistral AI近日宣布推出其最新一代大型语言模型Mistral Large2，这一模型在成本效益、速度和性能方面都取得了显著突破。

模型概况

Mistral Large2是一个拥有1230亿参数的模型，具有128K的上下文窗口。它支持包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语在内的数十种语言，以及Python、Java、C、C++、JavaScript和Bash等80多种编程语言。

通用性能:在MMLU测试中，Mistral Large2的预训练版本达到了84.0%的准确率。

代码和推理能力:在代码生成和数学推理方面，Mistral Large2的表现与GPT-4、Claude3Opus和Llama3405B等领先模型相当。

多语言能力:在多语言MMLU基准测试中，Mistral Large2展现出卓越的多语言处理能力，特别是在英语、法语、德语等主要语言上表现出色。

指令跟随和对齐:在MT-Bench、Wild Bench和Arena Hard等基准测试中，Mistral Large2显著提升了指令跟随和对话能力。

工具使用和函数调用:模型经过训练，能够熟练执行并行和顺序函数调用，为复杂的商业应用提供强大支持。

大幅减少"幻觉"现象，提高输出的可靠性和准确性。

增强了模型在无法找到解决方案或信息不足时的自我认知能力。

注重生成简洁且切中要点的回答，提高交互效率和成本效益。

Mistral Large2现已在la Plateforme上以"mistral-large-2407"的名称提供服务。

模型权重已开放，并托管在HuggingFace上。

Mistral AI与Google Cloud Platform扩大合作，通过Vertex AI提供Managed API服务。

该模型还可通过Azure AI Studio、Amazon Bedrock和IBM watsonx.ai等云服务提供商访问。

Mistral Large2在Mistral Research License下发布，允许用于研究和非商业用途。商业用途需要获取Mistral Commercial License。

这一新模型的发布标志着Mistral AI在大型语言模型领域取得了重大进展，为人工智能应用开发者提供了更强大、更灵活的工具，有望推动各行各业的创新应用。