zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-10-21 11:11:12
.
AIbase
.
12.6k
阿里巴巴文档处理模型mPLUG-DocOwl1.5:无需OCR就能分析图表、网页各类文档
最近,阿里巴巴的 AI 研究团队在文档理解领域取得了令人瞩目的进展,他们推出了 mPLUG-DocOwl1.5,这是一款在无OCR(光学字符识别)文档理解任务上表现卓越的尖端模型。过去,处理文档理解任务时,我们通常依赖 OCR 技术来从图像中提取文本,但这往往会受到复杂布局和视觉噪声的困扰。而 mPLUG-DocOwl1.5则通过一种全新的统一结构学习框架,直接从图像中学习理解文档,巧妙地避开了这一瓶颈。该模型通过分析文档在不同领域的布局和组织能力,涵盖了普通文档、表格、图表、网页和自然
2024-10-21 11:00:25
.
AIbase
.
12.6k
表格、图表统统拿下!阿里达摩院开源DocOwl 1.5 无需OCR,高效“读懂”文档!
阿里巴巴达摩院与中国人民大学近日联合开源了一款名为 mPLUG-DocOwl1.5的文档处理模型,该模型主打无需 OCR 识别即可理解文档内容,并在多个视觉文档理解基准测试中取得了领先的性能。结构信息对于理解富文本图像(例如文档、表格和图表)的语义至关重要。 现有的多模态大型语言模型 (MLLM) 虽然具备文本识别能力,但缺乏对富文本文档图像的通用结构理解能力。为了解决这一问题,mPLUG-DocOwl1.5强调结构信息在视觉文档理解中的重要性,并提出了 “统一结构学习” 来提升 MLLM 的性能。