最近,西雅图的一家初创公司 Moondream 推出了名为 moondream2的紧凑型视觉语言模型。尽管体积小巧,但该模型在各项基准测试中表现出色,备受关注。作为一个开源模型,moondream2有望在智能手机上实现本地图像识别功能。moondream2于三月正式发布,该模型能够处理文本和图像输入,具备回答问题、文本提取(OCR)、物体计数和物品分类等能力。自发布以来,Moondream 团队持续更新该模型,不断提升其基准性能。7月份的版本在 OCR 和文档理解方面显示出显著进步,尤其是在对历史经济数据的分析
AI 初创公司 Moondream 正式宣布完成450万美元的种子融资,并提出了一个颇具颠覆性的观点:在 AI 模型的世界里,小型模型可能更具优势。该公司得到了 Felicis Ventures、微软的 M12GitHub 基金和 Ascend 的支持,推出了一款仅有16亿参数的视觉语言模型,却能够与四倍于其规模的模型在性能上相媲美。Moondream 的开源模型已经引起了广泛关注,下载量超过200万次,GitHub 上的星标也达到了5100个。公司的首席执行官 Jay Allen 表示:“这个模型特别之处在于,它不仅小巧而且准确度高,运行起来也非常顺畅,
还记得那个号称“看图说话”神器GPT-4V吗?它能理解图片内容,还能根据图片执行任务,简直是懒人福音!但它有个致命弱点:眼神不太好!想象一下,你让GPT-4V帮你点个按钮,它却像个“屏幕瞎子”一样,到处乱点,是不是很抓狂?今天就给大家介绍一个能让GPT-4V眼神变好的神器——OmniParser!这是微软发布的全新模型,旨在解决图形用户界面(GUI)自动交互的难题。OmniParser是干啥的?简单来说,OmniParser就是个“屏幕翻译官”,它能把屏幕截图解析成GPT-4V能看懂的“结构化语言”。OmniParser结合了
近日,H2O.ai 宣布推出两款新型视觉语言模型,旨在提升文档分析和光学字符识别(OCR)任务的效率。这两款模型分别是 H2OVL Mississippi-2B 和 H2OVL-Mississippi-0.8B,它们在性能上与大型科技公司的模型相比,展现出令人瞩目的竞争力,可能为处理文档繁重工作流的企业提供更为高效的解决方案。H2OVL Mississippi-0.8B 模型虽然只有8亿参数,却在 OCRBench 文本识别任务中超越了所有其他模型,包括那些拥有数十亿参数的竞争对手。而20亿个参数的 H2OVL Mississippi-2B 模型则在多项视觉语言基准测试中表现不