zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-10-15 10:28:31
.
AIbase
.
12.4k
OCR 2.0模型来了!图表、几何图形、音乐符号均转换为可编辑文本
最近,研究人员开发了一种新的通用光学字符识别(OCR)模型,名为 GOT(通用 OCR 理论)。在他们的论文中,首次提出了 “OCR2.0” 的概念,这个新模型旨在将传统 OCR 系统的优点与大型语言模型的强大功能结合起来。GOT 的架构相当先进,包含了一个大约8000万参数的图像编码器和一个500万参数的解码器。图像编码器能够将1024x1024像素的图像压缩成 tokens,而解码器则负责将这些 tokens 转换成最长可达8000个字符的文本。通过这种方式,OCR2.0
2024-10-14 10:06:17
.
AIbase
.
12.4k
OCR 2.0模型:一键将文本、公式、图表图像转换为可编辑文本
在数字化时代,将图像中的文字内容快速转换成可编辑文本是一个常见且重要的需求。现在,一项名为GOT(通用光学字符识别理论)的新型光学字符识别(OCR)模型的问世,标志着OCR技术迈入了2.0时代。这一创新模型结合了传统OCR系统与大型语言模型的优势,旨在打造一个更高效、更智能的文本识别工具。GOT模型采用了一种创新的端到端架构,这一设计不仅节省资源,还极大地扩展了识别能力,使其不仅限于文本识别。该模型由一个参数约8000万的图像编码器和一个参数约500万的解码器组成。
2024-08-21 14:20:32
.
AIbase
.
11.2k
为复杂视觉推理而生!微软发布Phi-3.5-vision 轻量级、多模态开源模型
微软发布Phi-3.5-vision,一款轻量级、多模态开源AI模型,专为处理文本和视觉输入设计,支持128K上下文长度。该模型适用于资源受限环境,具备图像理解、OCR、图表解析、多图像摘要等功能,展现出色性能和低延迟。由42亿参数构成,通过高质量数据训练,确保性能和隐私。包含三款模型:轻量级AI、专家混合和多模态模型,均在图像和视频处理基准测试中表现出优异成绩。此模型适合AI驱动应用,特别是端侧运行和复杂视觉推理,提供强大支持。