近日,H2O.ai 宣布推出两款新型视觉语言模型,旨在提升文档分析和光学字符识别(OCR)任务的效率。这两款模型分别是 H2OVL Mississippi-2B 和 H2OVL-Mississippi-0.8B,它们在性能上与大型科技公司的模型相比,展现出令人瞩目的竞争力,可能为处理文档繁重工作流的企业提供更为高效的解决方案。

H2OVL Mississippi-0.8B 模型虽然只有8亿参数,却在 OCRBench 文本识别任务中超越了所有其他模型,包括那些拥有数十亿参数的竞争对手。而20亿个参数的 H2OVL Mississippi-2B 模型则在多项视觉语言基准测试中表现不俗。

image.png

H2O.ai 的创始人兼首席执行官 Sri Ambati 在接受 采访时表示:“我们设计的 H2OVL Mississippi 模型旨在成为高性能且具成本效益的解决方案,为各行各业提供 AI 驱动的 OCR、视觉理解和文档 AI。” 

image.png

他强调,这些模型可在各种环境中高效运行,同时能够根据特定领域的需求进行微调,从而帮助企业在降低成本的同时提升效率。

H2O.ai 将这两款新模型免费发布在 Hugging Face 平台上,允许开发者和企业根据自身需求对模型进行修改和适应。这一举措不仅扩大了 H2O.ai 的用户基础,也为希望采用文档 AI 解决方案的企业提供了更多选择。

同时,Ambati 也提到,小型、专用模型的经济优势不容忽视。“我们的生成预训练变换器模型基于与客户的深入合作,旨在从企业文档中提取出有意义的信息。” 他指出,H2O.ai 的模型能在资源占用更少的情况下,提供高效的文档处理能力,尤其是在面对质量较差的扫描件、难以辨认的手写体或大幅修改的文档时,表现更为出色。

模型入口:

H2OVL-Mississippi-0.8B:https://huggingface.co/h2oai/h2ovl-mississippi-800m

H2OVL Mississippi-2B:https://huggingface.co/h2oai/h2ovl-mississippi-2b

划重点:  

🌟 H2O.ai 推出新型视觉语言模型 H2OVL Mississippi-2B 和 H2OVL-Mississippi-0.8B,提供高效文档分析解决方案。  

💡 H2OVL Mississippi-0.8B 模型在文本识别任务中超越更大型的竞争对手,显示出小型模型的潜力。  

📈 H2O.ai 致力于开放源代码和实用 AI 解决方案,帮助企业在数字化转型中提取有价值的信息。