華中科技大学などの機関が、5つのタスクと27個のデータセットを網羅する多モーダル大規模モデルの新しいベンチマークを発表しました。
評価結果によると、テキスト認識や文書質問応答などのタスクでは優れた性能を示しましたが、意味依存関係、手書きテキスト、多言語テキストにおいては課題が残っています。
研究チームは、OCR能力をより正確に評価するためのOCRBenchを構築し、多モーダル大規模モデルの発展に指針を提供します。
OCRBenchの導入により、研究者にとって包括的なツールが提供され、多モーダル大規模モデルにおけるOCR分野の正確な評価と改善が促進されます。