最近,西雅图的一家初创公司 Moondream 推出了名为 moondream2的紧凑型视觉语言模型。尽管体积小巧,但该模型在各项基准测试中表现出色,备受关注。作为一个开源模型,moondream2有望在智能手机上实现本地图像识别功能。

image.png

moondream2于三月正式发布,该模型能够处理文本和图像输入,具备回答问题、文本提取(OCR)、物体计数和物品分类等能力。自发布以来,Moondream 团队持续更新该模型,不断提升其基准性能。7月份的版本在 OCR 和文档理解方面显示出显著进步,尤其是在对历史经济数据的分析中表现出色。该模型在 DocVQA、TextVQA 和 GQA 的得分均超过60%,显示出其在本地执行时的强大能力。

moondream2的一个显著特点是其紧凑的尺寸:仅有16亿个参数,这使得它不仅能够在云服务器上运行,也可以在本地计算机甚至一些性能较低的设备如智能手机或单板计算机上运行。

尽管体积小,但其性能却与一些参数量达数十亿的竞争模型相当,甚至在某些基准测试中表现优于这些较大模型。

在对移动设备视觉语言模型的比较中,研究人员指出,尽管 moondream2的参数量仅为1.7亿,但其性能与7亿参数的模型相当,仅在 SQA 数据集的表现稍逊一筹。这表明,尽管小型模型表现出色,但在理解特定上下文方面仍面临挑战。

image.png

该模型的开发者 Vikhyat Korrapati 表示,moondream2是基于其他模型如 SigLIP、微软的 Phi-1.5和 LLaVA 训练数据集所构建的。该开源模型现已在 GitHub 上免费提供下载,并在 Hugging Face 上展示了其演示版本。在编码平台上,moondream2也引起了开发者社区的广泛关注,获得了超过5000个星级评价。

此次成功吸引了投资者的目光:在由 Felicis Ventures、微软的 M12GitHub 基金和 Ascend 领投的种子轮融资中,Moondream 成功筹集了450万美元。公司的 CEO Jay Allen 曾在亚马逊网络服务(AWS)工作多年,领导着这家不断发展的初创企业。

moondream2的推出标志着一系列经过专业优化的开源模型的诞生,这些模型在提供与更大、更旧模型相似的性能时,所需的资源更少。目前市场上虽然已有一些小型的本地模型,比如苹果的智能助手和谷歌的 Gemini Nano,但这两家厂商仍然将更复杂的任务外包给云端解决。

huggingface:https://huggingface.co/vikhyatk/moondream2

github:https://github.com/vikhyat/moondream

划重点:

🌟 Moondream 推出了 moondream2,一个仅有1.6亿参数的视觉语言模型,能在智能手机等小型设备上运行。  

📈 该模型具备强大的文本和图像处理能力,能够回答问题、进行 OCR、物体计数和分类,基准测试表现出色。  

💰 Moondream 成功筹集450万美元资金,CEO 曾在亚马逊工作,团队持续更新提升模型性能。