微软最新发布了Phi-3.5-vision,一款轻量级、多模态的开源AI模型,它是Phi-3模型家族的新成员,专为需要同时处理文本和视觉输入的应用设计。Phi-3.5-vision模型在内存或计算资源受限的环境中表现出色,支持128K的上下文长度,是商业和研究领域的理想选择。

image.png

Phi-3.5-vision模型具备广泛的图像理解、光学字符识别(OCR)、图表和表格解析、多图像或视频剪辑摘要等功能。在图像和视频处理相关的基准测试中,该模型展现出了显著的性能提升。

Phi-3.5-vision模型由一个42亿参数的系统构成,包括图像编码器、连接器、投影器和Phi-3Mini语言模型。它使用高质量的教育数据、合成数据和经过严格筛选的公开文档进行训练,确保了数据质量和隐私。

Phi-3.5-vision包含三款模型:

Phi-3.5Mini Instruct:轻量级AI模型,适合内存或计算资源有限的环境。

Phi-3.5MoE (Mixture of Experts):微软首次推出的“专家混合”模型,擅长处理复杂任务。

Phi-3.5Vision Instruct:多模态模型,集成了文本和图像处理功能。

主要功能特点

Phi-3.5-vision模型的主要功能特点包括图像理解、OCR、图表和表格理解、多图像对比、多图像或视频剪辑摘要、高效的推理能力以及低延迟和内存优化。

Phi-3.5-vision在多项基准测试中表现优异,如MMMU、MMBench、TextVQA和视频处理能力测试,以及BLINK基准测试,展现了其在多模态和视觉任务中的强大性能。

微软Phi-3.5-vision模型的发布,为AI领域带来了新的选择,特别是在端侧运行和复杂视觉推理方面。它的开源特性和优化设计,使其在资源受限的环境中也能发挥出色的性能,为多种AI驱动的应用提供了强大支持。

模型下载地址:https://huggingface.co/microsoft/Phi-3.5-vision-instruct