OCR 2.0模型：一键将文本、公式、图表图像转换为可编辑文本

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月14号 10:06

235

在数字化时代，将图像中的文字内容快速转换成可编辑文本是一个常见且重要的需求。现在，一项名为GOT（通用光学字符识别理论）的新型光学字符识别(OCR)模型的问世，标志着OCR技术迈入了2.0时代。这一创新模型结合了传统OCR系统与大型语言模型的优势，旨在打造一个更高效、更智能的文本识别工具。

GOT模型采用了一种创新的端到端架构，这一设计不仅节省资源，还极大地扩展了识别能力，使其不仅限于文本识别。该模型由一个参数约8000万的图像编码器和一个参数约500万的解码器组成。图像编码器能够将高达1024x1024像素的图像压缩成数据单元，而解码器则将这些数据转换为长达8000字符的文本。

GOT的强大之处在于其全能性，不仅能识别转换英文和中文文档及场景文本，还能处理数学化学公式、音乐符号、简单几何图形及各种图表。这使得GOT成为一个真正的多面手。

为了训练这一模型，研究团队首先集中于文本识别任务，然后采用阿里巴巴的Qwen-0.5B作为解码器，并通过多种合成数据进行微调。他们使用LaTeX、Mathpix-markdown-it和Matplotlib等专业渲染工具生成了数百万图像-文本对，用于模型训练。

OCR2.0技术的另一大亮点是其能够提取格式化文本、标题，甚至多页图像，并将其转换为结构化的数字格式。这为科学、音乐和数据分析等领域的自动处理和分析提供了新的可能性。

在各种OCR任务的测试中，GOT展现了卓越的性能，在文档和场景文本识别方面取得了行业领先成绩，甚至在图表识别方面也超越了许多专业模型和大型语言模型。无论是复杂的化学结构公式，还是音乐符号和数据可视化，OCR2.0都能准确捕捉并转换为机器可读格式。

为了让更多用户能够体验并利用这一技术，研究团队在Hugging Face平台上发布了免费的演示和代码。OCR2.0的到来，无疑为信息处理领域带来了一场革命，它不仅提高了效率，还增加了灵活性，让我们对图像中的文字信息处理更加得心应手。

Hippocratic AI 融资 1.41 亿美元，推动患者友好的 AI 代理发展

Hippocratic AI 是一家致力于构建患者友好型人工智能解决方案的初创公司，近日成功完成了一轮1.41亿美元的 B 轮融资，估值高达16.4亿美元。本轮融资由知名风险投资公司 Kleiner Perkins 领投，标志着 Hippocratic AI 在医疗健康领域的快速发展。仅在成立不到两年的时间里，该公司就已经吸引了众多投资者的关注，之前还获得了来自 General Catalyst 和 Andreessen Horowitz 的5300万美元融资，以及来自 Nvidia 的1700万美元资金支持。图源备注：图片由AI生成，图片授权服务商Midjourney与许多专注于减轻行政负担的

Hippocratic AI获1.41亿美元融资助力医疗领域AI智能化

Hippocratic AI 是一家专注于开发医疗领域 AI 解决方案的初创公司，最近宣布完成了1.41亿美元的 B 轮融资，估值达到16.4亿美元。本轮融资由著名风险投资公司 Kleiner Perkins 领投，距该公司在九个月前从 General Catalyst 和 Andreessen Horowitz 获得5300万美元的融资，以及五个月前从 Nvidia 获得1700万美元的融资，仅过去了一段短暂的时间。Hippocratic AI 成立不到两年，发展迅速。图源备注：图片由AI生成，图片授权服务商Midjourney在当前许多医疗生成 AI 公司主要集中于减少行政负担的背景下，Hippocratic AI 则选

腾讯出品！StereoCrafter：输入2D视频转3D视频效果

近日，腾讯 AI 实验室与腾讯 PCG 的 ARC 实验室联合推出了一种名为 StereoCrafter 的新框架，该框架可以将普通的2D 视频转换为高保真的立体3D 视频。这一创新响应了对3D 内容日益增长的需求，尤其是在沉浸式体验领域。StereoCrafter 充分利用了基础模型的优势，克服了传统转换方法的局限，显著提升了生成效果，确保生成内容能够满足各种显示设备的高保真要求。该系统的核心分为两个主要步骤。第一步是基于深度信息的视频重新贴图，提取遮挡信息的同时进行视频变换;第二步则是立体视频的

微软推新模型OmniParser：让GPT-4V秒懂屏幕截图内容，指哪懂哪

还记得那个号称“看图说话”神器GPT-4V吗?它能理解图片内容，还能根据图片执行任务，简直是懒人福音!但它有个致命弱点:眼神不太好!想象一下，你让GPT-4V帮你点个按钮，它却像个“屏幕瞎子”一样，到处乱点，是不是很抓狂?今天就给大家介绍一个能让GPT-4V眼神变好的神器——OmniParser!这是微软发布的全新模型，旨在解决图形用户界面（GUI）自动交互的难题。OmniParser是干啥的?简单来说，OmniParser就是个“屏幕翻译官”，它能把屏幕截图解析成GPT-4V能看懂的“结构化语言”。OmniParser结合了

AI新闻资讯

OCR 2.0模型：一键将文本、公式、图表图像转换为可编辑文本

AIbase基地

相关AI新闻推荐

​Hippocratic AI 融资 1.41 亿美元，推动患者友好的 AI 代理发展

Hippocratic AI获1.41亿美元融资 助力医疗领域AI智能化

腾讯出品！StereoCrafter：输入2D视频转3D视频效果

微软推新模型OmniParser：让GPT-4V秒懂屏幕截图内容，指哪懂哪

Hippocratic AI 融资 1.41 亿美元，推动患者友好的 AI 代理发展

Hippocratic AI获1.41亿美元融资助力医疗领域AI智能化