DocLayout-YOLO

多様な合成データとグローバルからローカルへの適応的知覚向上により文書レイアウト解析を強化

一般製品画像文書レイアウト解析深層学習

DocLayout-YOLOは文書レイアウト解析のための深層学習モデルです。多様な合成データとグローバルからローカルへの適応的知覚によって、文書レイアウト解析の精度と処理速度を向上させます。Mesh-candidate BestFitアルゴリズムを用いて大規模で多様なDocSynth-300Kデータセットを生成することで、様々な文書タイプにおける微調整性能を大幅に向上させました。さらに、グローバルからローカルまで制御可能な感受野モジュールを提案し、文書要素の多様なスケール変化をより適切に処理します。DocLayout-YOLOは様々な文書タイプの下流データセットにおいて優れた性能を示し、速度と精度において顕著な利点があります。

Best AI Websites & Tools

DocLayout-YOLO

DocLayout-YOLO 最新のトラフィック状況

DocLayout-YOLO 訪問数の傾向

DocLayout-YOLO 訪問地理的分布

DocLayout-YOLO トラフィックソース

DocLayout-YOLO 代替品

DocLayout-YOLO — 多様な合成データとグローバルからローカルへの適応的知覚向上により文書レイアウト解析を強化

OpenGVLab InternVL — AI画像言語モデル。画像分析と説明を提供します。

Florence-VL — 視覚言語モデル強化ツール。生成型視覚エンコーダと深層幅融合技術を組み合わせました。

PaliGemma 2 — PaliGemma 2は、調整が容易な高性能なビジョン言語モデルです。

YOLO11 — 最先端な物体検出と追跡モデル

Aixploria — AIツールディレクトリ。最適なAIツールを見つけましょう

llava-llama-3-8b-v1_1 — XTunerで最適化されたLLaVAモデル。画像とテキストの処理能力を兼ね備えています。

MindOne — MindOneは、ワンストップAI生成ツールです。

Anthropic — 人工知能の未来を創造する

機械知覚 — インテリジェントな画像認識と分析

Google Vision Transformer — Transformerに基づく画像認識モデル

HunyuanVideo-I2V — HunyuanVideo-I2Vは、テンセントがHunyuanVideoに基づいて開発した、画像から動画を生成するフレームワークです。

Google CameraTrapAI — Googleによって訓練されたAIモデルで、野生動物カメラトラップ画像内の種の分類に使用されます。

QwQ-32B — QwQ-32Bは、複雑な問題解決とテキスト生成のために設計された、強力な推論モデルであり、優れたパフォーマンスを発揮します。

CogView4-6B — CogView4-6Bは、高品質な画像生成に特化した強力なテキストから画像への生成モデルです。

UniTok — UniTokは、視覚生成と理解のための統一的な視覚トークナイザーです。

PhotoDoodle — PhotoDoodleは、少量のサンプルペアデータから芸術的な画像編集を学習するコード実装です。

DeepSeek Infraにおけるプロファイリングデータ — V3/R1における計算と通信のオーバーラップ戦略を分析し、深層学習フレームワークの性能分析データを提供します。

DualPipe — V3/R1訓練における計算と通信のオーバーラップを実現する双方向パイプライン並列アルゴリズムです。

DeepGEMM — DeepGEMMは、効率的なFP8行列乗算のためのCUDAライブラリであり、細粒度スケーリングと様々な最適化技術をサポートしています。

FlexHeadFA — 高速かつメモリ効率の高い正確なアテンションメカニズム

FlashMLA — FlashMLAはHopper GPU向けに最適化された、高効率なMLAデコードカーネルです。可変長シーケンスサービスに適しています。

QwQ-Max-Preview — QwQ-Max-Previewは、Qwenシリーズの最新成果であり、Qwen2.5-Maxを基盤として構築されています。強力な推論能力と多様な分野への適用能力を備えています。

Claude 3.7 Sonnet — Anthropic社が開発した最新のAIモデルで、高速な応答と高度な推論を両立します。

VLM-R1 — VLM-R1は、安定性と汎用性に優れた強化学習に基づくビジュアル言語モデルであり、画像理解タスクに特化しています。

PaliGemma 2 mix — PaliGemma 2 mixは、多様なタスクと分野に適用可能な多機能ビジュアル言語モデルです。

BioEmu — BioEmuは、タンパク質平衡系アンサンブルを拡張可能なシミュレーションを行うための生成型深層学習モデルです。

Kimi Latest — 月之暗面がリリースした最新のAIモデルです。自動同期更新と長文コンテキストに対応し、AIチャットやスマートアシスタントの構築に最適です。

FlashVideo — FlashVideoは、ディテールと忠実度の高い高解像度動画生成モデルです。

OmniParser-v2.0 — OmniParserは、UIスクリーンショットを構造化されたフォーマットに変換し、LLMベースのUIエージェントのパフォーマンスを向上させる汎用スクリーン解析ツールです。