DocLLM

多モーダル文書理解モデル

一般製品生産性多モーダル文書理解
DocLLMは、企業文書内のテキストと空間レイアウトを処理し、既存の大規模言語モデルを上回る性能を提供することを目的とした、多モーダル文書理解モデルを提供するプラットフォームです。軽量な拡張を採用し、高価な画像エンコーダーを回避し、空間レイアウト構造の取り込みに境界ボックス情報に焦点を当てています。従来のTransformerにおける注意機構を分解することにより、テキストと空間モーダリティ間のクロスアライメントを捉えます。さらに、視覚文書で頻繁に見られる不規則なレイアウトと異種コンテンツに対処するために、テキストパラグラフの補完を学習する事前学習目標を設計しました。このソリューションは、14個のタスクにおける16個のデータセットにおいて、既存の大規模言語モデルを上回り、5個の以前未見のデータセットにおいても良好な汎化能力を示します。
ウェブサイトを開く

DocLLM 最新のトラフィック状況

月間総訪問数

29742941

直帰率

44.20%

平均ページ/訪問

5.9

平均訪問時間

00:04:44

DocLLM 訪問数の傾向

DocLLM 訪問地理的分布

DocLLM トラフィックソース

DocLLM 代替品