zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-10-21 11:00:25
.
AIbase
.
12.6k
表格、图表统统拿下!阿里达摩院开源DocOwl 1.5 无需OCR,高效“读懂”文档!
阿里巴巴达摩院与中国人民大学近日联合开源了一款名为 mPLUG-DocOwl1.5的文档处理模型,该模型主打无需 OCR 识别即可理解文档内容,并在多个视觉文档理解基准测试中取得了领先的性能。结构信息对于理解富文本图像(例如文档、表格和图表)的语义至关重要。 现有的多模态大型语言模型 (MLLM) 虽然具备文本识别能力,但缺乏对富文本文档图像的通用结构理解能力。为了解决这一问题,mPLUG-DocOwl1.5强调结构信息在视觉文档理解中的重要性,并提出了 “统一结构学习” 来提升 MLLM 的性能。