AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2024-10-21 11:11:12.AIbase

阿里巴巴文档处理模型mPLUG-DocOwl1.5：无需OCR就能分析图表、网页各类文档

最近，阿里巴巴的 AI 研究团队在文档理解领域取得了令人瞩目的进展，他们推出了 mPLUG-DocOwl1.5，这是一款在无OCR（光学字符识别）文档理解任务上表现卓越的尖端模型。过去，处理文档理解任务时，我们通常依赖 OCR 技术来从图像中提取文本，但这往往会受到复杂布局和视觉噪声的困扰。而 mPLUG-DocOwl1.5则通过一种全新的统一结构学习框架，直接从图像中学习理解文档，巧妙地避开了这一瓶颈。该模型通过分析文档在不同领域的布局和组织能力，涵盖了普通文档、表格、图表、网页和自然

阿里巴巴文档处理模型mPLUG-DocOwl1.5：无需OCR就能分析图表、网页各类文档

2024-10-21 11:00:25.AIbase

表格、图表统统拿下！阿里达摩院开源DocOwl 1.5 无需OCR，高效“读懂”文档！

阿里巴巴达摩院与中国人民大学近日联合开源了一款名为 mPLUG-DocOwl1.5的文档处理模型，该模型主打无需 OCR 识别即可理解文档内容，并在多个视觉文档理解基准测试中取得了领先的性能。结构信息对于理解富文本图像（例如文档、表格和图表）的语义至关重要。现有的多模态大型语言模型 (MLLM) 虽然具备文本识别能力，但缺乏对富文本文档图像的通用结构理解能力。为了解决这一问题，mPLUG-DocOwl1.5强调结构信息在视觉文档理解中的重要性，并提出了 “统一结构学习” 来提升 MLLM 的性能。

表格、图表统统拿下！阿里达摩院开源DocOwl 1.5 无需OCR，高效“读懂”文档！