zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-10-15 10:28:31
.
AIbase
.
12.4k
OCR 2.0模型来了!图表、几何图形、音乐符号均转换为可编辑文本
最近,研究人员开发了一种新的通用光学字符识别(OCR)模型,名为 GOT(通用 OCR 理论)。在他们的论文中,首次提出了 “OCR2.0” 的概念,这个新模型旨在将传统 OCR 系统的优点与大型语言模型的强大功能结合起来。GOT 的架构相当先进,包含了一个大约8000万参数的图像编码器和一个500万参数的解码器。图像编码器能够将1024x1024像素的图像压缩成 tokens,而解码器则负责将这些 tokens 转换成最长可达8000个字符的文本。通过这种方式,OCR2.0
2024-09-18 10:04:59
.
AIbase
.
11.8k
普通的文本识别已经out了!GOT-OCR2.0还懂公式和乐谱
近日,一款名为GOT-OCR2.0的端到端OCR模型引起了业界广泛关注。这款模型不仅能够处理常规文本识别任务,还能应对公式、表格、乐谱等复杂内容,堪称OCR领域的全能选手。GOT-OCR2.0的核心优势在于其多样化的功能和卓越的性能。首先,该模型主要支持中英文字符识别,并且通过进一步微调,可以扩展到更多语言。这种语言适应性使得GOT-OCR2.0在国际化应用中具有显著优势。在实际应用场景中,GOT-OCR2.0展现出了强大的适应能力。无论是街道标志、广告牌等自然场景中的文本,还是包含表格、公