ViTLP

文档智能的视觉引导生成文本布局预训练模型

普通产品生产力OCR文档智能

ViTLP是一个视觉引导的生成文本布局预训练模型，旨在提高文档智能处理的效率和准确性。该模型结合了OCR文本定位和识别功能，能够在文档图像上进行快速准确的文本检测和识别。ViTLP模型的预训练版本ViTLP-medium（380M参数）在计算资源和预训练数据集规模的限制下，提供了一个平衡的解决方案，既保证了模型的性能，又优化了推理速度和内存使用。ViTLP的推理速度在Nvidia 4090上处理一页文档图像通常在5到10秒内，与大多数OCR引擎相比具有竞争力。

Best AI Websites & Tools

ViTLP

ViTLP 最新流量情况

ViTLP 访问量趋势

ViTLP 访问地理位置分布

ViTLP 流量来源

ViTLP 替代品

Excerptor — 从实体书籍中提取划线或手写标记的文本

DTLR — 手写文本识别和字符检测模型

GOT-OCR2.0 — 通过统一的端到端模型实现OCR-2.0

Image/Manga Translator — 一键翻译各类图片内文字

magi — 为漫画自动生成文本记录：检测漫画角色、文本块和面板，对面板进行排序，聚类角色，匹配文本与其说话者，并执行光学字符识别（OCR）

OCR Magic — 快速扫描和转换文本

OCR Solution — OCR解决方案API | 文档OCR文本识别

Magma — Magma 是一个能够理解和执行多模态输入的基础模型，可用于复杂任务和环境。

FreeParser — FreeParser 是一款由 AI 驱动的免费文档解析工具，支持多种文件格式。

kreuzberg — 一个支持从PDF、图像、办公文档等多种格式中提取文本的Python库。

MILS — LLMs 无需任何培训就能看见和听见

朱雀大模型AI生成文本检测 — 基于先进AI模型，能精准识别AI生成文本，中英文检测能力出色。

Ollama OCR for web — 一个强大的OCR包，使用最先进的视觉语言模型提取图像中的文本。

timesfm-2.0-500m-pytorch — 由Google Research开发的预训练时间序列预测模型。

Imitate Before Detect — 一种用于检测机器修订文本的先进方法，通过模仿机器风格来提高检测准确性。

ExtractThinker — 智能文档处理框架，专为LLMs设计

OpenEMMA — 开源的端到端自动驾驶多模态模型

STranslate — 即用即走的翻译、OCR工具

EdgeOne Pages Functions AI OCR — AI驱动的图像文字识别服务

ModernBERT-base — 高效处理长文本的双向编码器模型

Ollama-OCR — 一个强大的OCR（光学字符识别）工具

SynCamMaster — 多视角视频生成同步技术

InternViT-6B-448px-V2_5 — 基于InternViT-6B-448px-V1-5的增强版视觉模型

InternVL2_5-26B — 多模态大型语言模型，融合视觉与语言理解。

Meta Llama 3.3 — 70B参数的多语言大型预训练语言模型

ClearerVoice-Studio — 开源AI语音处理工具包，支持语音增强、分离和目标说话人提取。

Aria-Base-64K — 多模态原生Mixture-of-Experts模型

olmo-mix-1124 — 大规模多模态预训练数据集

LlamaOCR — 将图像转换成结构化的Markdown文档