ViTLP

ドキュメントインテリジェンスのための、視覚誘導型テキストレイアウト生成事前学習モデル

一般製品生産性OCRドキュメントインテリジェンス

ViTLPは、ドキュメントインテリジェンス処理の効率と精度向上を目指した、視覚誘導型テキストレイアウト生成事前学習モデルです。OCRによるテキスト位置特定と認識機能を統合し、ドキュメント画像上での迅速かつ正確なテキスト検出と認識を実現します。計算資源と事前学習データセット規模の制約下において、ViTLP-medium（3億8000万パラメータ）という事前学習済みバージョンは、モデル性能と推論速度・メモリ使用量の最適化のバランスを取ったソリューションを提供します。Nvidia 4090を用いたViTLPの推論速度は、1ページのドキュメント画像処理に通常5～10秒かかり、多くのOCRエンジンと比較して競争力があります。

Best AI Websites & Tools

ViTLP

ViTLP 最新のトラフィック状況

ViTLP 訪問数の傾向

ViTLP 訪問地理的分布

ViTLP トラフィックソース

ViTLP 代替品

ViTLP — ドキュメントインテリジェンスのための、視覚誘導型テキストレイアウト生成事前学習モデル

Excerptor — 書籍から下線部や手書きのメモを抽出するツール

GOT-OCR2.0 — 統一のエンドツーエンドモデルによるOCR-2.0の実現

画像/漫画翻訳ツール — 画像内のあらゆるテキストをワンクリックで翻訳

OCR Magic — テキストを高速スキャンして変換

OCRソリューション — OCRソリューションAPI | ドキュメントOCRテキスト認識

Aya Vision 32B — Aya Vision 32Bは、OCR、画像記述、視覚推論など、多様な用途に適した多言語対応のビジュアル言語モデルです。

Aya Vision 8B — 8億パラメーターの多言語視覚言語モデルで、OCR、画像キャプション、視覚推論などの機能をサポートしています。

Magma — Magmaは、多様なモーダル入力の理解と実行が可能な基礎モデルであり、複雑なタスクや環境で使用できます。

FreeParser — FreeParserは、AI駆動の無料ドキュメント解析ツールで、様々なファイル形式に対応しています。

Kreuzberg — PDF、画像、オフィス文書など様々なフォーマットからテキストを抽出できるPythonライブラリです。

朱雀大模型AI生成テキスト検出 — 高度なAIモデルに基づき、AI生成テキストを正確に識別します。日本語と英語の検出能力に優れています。

Ollama OCR for web — 最先端ビジョン言語モデルを用いて画像内のテキストを抽出する、強力なOCRパッケージです。

検出前の模倣 (Imitate Before Detect) — 機械改変テキストの検出精度向上のため、機械の文体を模倣する高度な手法です。

ExtractThinker — LLM向けに設計されたインテリジェントドキュメント処理フレームワーク

STranslate — すぐに使える翻訳・OCRツール

EdgeOne Pages Functions AI OCR — AIによる画像文字認識サービス

ModernBERT-base — 長文テキストを効率的に処理する双方向エンコーダーモデル

Ollama-OCR — 強力なOCR（光学文字認識）ツール

InternViT-6B-448px-V2_5 — InternViT-6B-448px-V1-5をベースとした強化版ビジョンモデル

Meta Llama 3.3 — 70Bパラメーターの多言語大規模事前学習言語モデル

Aria-Base-64K — 多モーダルネイティブMixture-of-Expertsモデル

LlamaOCR — 画像を構造化されたMarkdownドキュメントに変換します。

Extractous — 高速・高効率の非構造化データ抽出ツール

TurboLens — 画像から瞬時にインサイトを生成する、ワンストップOCRソリューション。

MinerU — PDFをMarkdownおよびJSON形式に変換する、ワンストップ型の高品質なオープンソースデータ抽出ツールです。

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4 — 32億パラメーターのオープンソースコード生成言語モデル

Koncile — 次世代の信頼性とカスタマイズ性に優れたOCRソリューション

Qwen2.5-Coder-0.5B-Instruct — Qwen2.5-Coderシリーズの指示微調整済み0.5Bパラメータコード生成モデル