DocLLM
多モーダル文書理解モデル
一般製品生産性多モーダル文書理解
DocLLMは、企業文書内のテキストと空間レイアウトを処理し、既存の大規模言語モデルを上回る性能を提供することを目的とした、多モーダル文書理解モデルを提供するプラットフォームです。軽量な拡張を採用し、高価な画像エンコーダーを回避し、空間レイアウト構造の取り込みに境界ボックス情報に焦点を当てています。従来のTransformerにおける注意機構を分解することにより、テキストと空間モーダリティ間のクロスアライメントを捉えます。さらに、視覚文書で頻繁に見られる不規則なレイアウトと異種コンテンツに対処するために、テキストパラグラフの補完を学習する事前学習目標を設計しました。このソリューションは、14個のタスクにおける16個のデータセットにおいて、既存の大規模言語モデルを上回り、5個の以前未見のデータセットにおいても良好な汎化能力を示します。
DocLLM 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44