小而强大！H2O.ai 发布新AI视觉模型文档分析领域超越科技巨头

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月18号 10:11

234

近日，H2O.ai 宣布推出两款新型视觉语言模型，旨在提升文档分析和光学字符识别（OCR）任务的效率。这两款模型分别是 H2OVL Mississippi-2B 和 H2OVL-Mississippi-0.8B，它们在性能上与大型科技公司的模型相比，展现出令人瞩目的竞争力，可能为处理文档繁重工作流的企业提供更为高效的解决方案。

H2OVL Mississippi-0.8B 模型虽然只有8亿参数，却在 OCRBench 文本识别任务中超越了所有其他模型，包括那些拥有数十亿参数的竞争对手。而20亿个参数的 H2OVL Mississippi-2B 模型则在多项视觉语言基准测试中表现不俗。

H2O.ai 的创始人兼首席执行官 Sri Ambati 在接受采访时表示:“我们设计的 H2OVL Mississippi 模型旨在成为高性能且具成本效益的解决方案，为各行各业提供 AI 驱动的 OCR、视觉理解和文档 AI。”

他强调，这些模型可在各种环境中高效运行，同时能够根据特定领域的需求进行微调，从而帮助企业在降低成本的同时提升效率。

H2O.ai 将这两款新模型免费发布在 Hugging Face 平台上，允许开发者和企业根据自身需求对模型进行修改和适应。这一举措不仅扩大了 H2O.ai 的用户基础，也为希望采用文档 AI 解决方案的企业提供了更多选择。

同时，Ambati 也提到，小型、专用模型的经济优势不容忽视。“我们的生成预训练变换器模型基于与客户的深入合作，旨在从企业文档中提取出有意义的信息。” 他指出，H2O.ai 的模型能在资源占用更少的情况下，提供高效的文档处理能力，尤其是在面对质量较差的扫描件、难以辨认的手写体或大幅修改的文档时，表现更为出色。

模型入口:

H2OVL-Mississippi-0.8B:https://huggingface.co/h2oai/h2ovl-mississippi-800m

H2OVL Mississippi-2B:https://huggingface.co/h2oai/h2ovl-mississippi-2b

划重点:
🌟 H2O.ai 推出新型视觉语言模型 H2OVL Mississippi-2B 和 H2OVL-Mississippi-0.8B，提供高效文档分析解决方案。
💡 H2OVL Mississippi-0.8B 模型在文本识别任务中超越更大型的竞争对手，显示出小型模型的潜力。
📈 H2O.ai 致力于开放源代码和实用 AI 解决方案，帮助企业在数字化转型中提取有价值的信息。

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破

近日，VLM-R1项目的成功推出为这一领域带来了新的曙光。该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移，意味着 AI 对视觉内容的理解将进入一个全新的阶段。VLM-R1的灵感源自于去年 DeepSeek 开源的 R1方法，该方法利用了 GRPO（Generative Reward Processing Optimization）强化学习技术，在纯文本处理上取得了优异的表现。如今，VLM-R1团队将这一方法成功地应用于视觉语言模型，为多模态 AI 的研究开辟了新天地。在项目的验证结果中，VLM-R1的表现令人惊艳。首先，R1方法在复杂场景下展现出

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

近日，谷歌宣布推出一款全新的视觉 - 语言模型（Vision-Language Model， VLM），名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力，能够同时理解视觉信息和文本输入，并根据需求生成相应的输出，标志着人工智能技术在多任务处理方面的进一步突破。PaliGemma2Mix 的功能非常强大，它集成了图像描述、光学字符识别（OCR）、图像问答、目标检测和图像分割等多种视觉 - 语言任务，适用于多种应用场景。开发者可以通过预训练检查点(checkpoints)直接使用这款模型，或根据自己的需求

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集，这是一个包含1000亿个图像 - 文本对的庞大数据集，旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据集，研究人员希望改善视觉语言模型在不同文化和语言环境下的表现，同时减少各个子组之间的性能差异，从而提升人工智能的包容性。视觉语言模型（VLMs）依赖于大量数据集来学习如何连接图像与文本，从而执行如图像字幕生成和视觉问答等任务。过去，这些模型主要依赖于 Conceptual Captions 和 LAION 等大型数据集，虽然这

IBM发布视觉语言模型Granite-Vision-3.1-2B，轻松解析复杂文档

随着人工智能技术的不断发展，视觉与文本数据的融合成为了一项复杂的挑战。传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档，这一限制影响了自动内容提取和理解能力，进而影响了数据分析、信息检索和决策等应用。面对这一需求，IBM 近期发布了 Granite-Vision-3.1-2B，一款专为文档理解设计的小型视觉语言模型。Granite-Vision-3.1-2B 能够从各种视觉格式中提取内容，包括表格、图表和图示。该模型基于精心挑选的数据集进行训练，数据来源包括公共和合成源，能够

AI新闻资讯

小而强大！H2O.ai 发布新AI视觉模型 文档分析领域超越科技巨头