Mistral AI再次震撼AI界,推出了首款开源多模态大模型Pixtral12B。这款能同时处理图像和文本的模型不仅技术先进,更以其开放态度引发广泛关注。Mistral AI直接将模型权重公开上网,甚至贴心地提供了磁力链接。

image.png

Pixtral12B的亮点不仅在于其强大的功能,更在于其精巧的设计。模型总体积仅为23.64GB,在多模态模型中可谓轻量级选手。这一特性大大降低了能耗和部署门槛,让更多开发者和研究人员能够轻松上手。据悉,拥有高速网络的用户仅需几分钟即可完成下载,极大地提高了模型的可访问性。

作为Mistral AI的最新力作,Pixtral12B基于其文本模型Nemo12B开发而成,拥有120亿参数。它的能力堪比Anthropic的Claude系列和OpenAI的GPT-4等知名多模态模型,能够理解并回答各种与图像相关的复杂问题。

在技术规格上,Pixtral12B同样令人印象深刻:40层网络结构、14,336个隐藏维度、32个注意力头,以及400M的专用视觉编码器,支持处理1024x1024分辨率的图像。

image.png

更值得一提的是,Pixtral12B在多项权威基准测试中表现出色。在MMMU、Mathvista、ChartQA、DocVQA等平台上,它的成绩超越了包括Phi-3和Qwen-27B在内的多个知名多模态模型,充分证明了其强劲的实力。

Mistral AI此举无疑将进一步推动多模态模型的开源浪潮。社区对这一新模型反响热烈,许多开发者和研究人员已迫不及待地开始探索Pixtral12B的潜力。这不仅体现了开源社区的活力,也预示着多模态AI技术可能迎来新一轮的创新热潮。

随着Pixtral12B的发布,我们有理由期待更多创新应用的出现。无论是在图像理解、文档分析,还是跨模态推理等领域,这款模型都可能带来突破性的进展。Mistral AI的这一举措,无疑为AI技术的民主化和普及化贡献了重要力量,让我们拭目以待它在未来将如何重塑AI领域的格局。

huggingface地址:https://huggingface.co/mistral-community/pixtral-12b-240910