Das Alibaba DAMO Academy und die Renmin Universität China haben kürzlich gemeinsam ein Dokumentverarbeitungsmodell namens mPLUG-DocOwl1.5 veröffentlicht, das Open Source ist. Dieses Modell versteht den Inhalt von Dokumenten ohne OCR-Erkennung und erzielt in mehreren Benchmarks für visuelles Dokumentverständnis führende Ergebnisse.
Strukturinformationen sind entscheidend für das Verständnis der Semantik von Rich-Text-Bildern (z. B. Dokumente, Tabellen und Diagramme). Bisherige multimodale große Sprachmodelle (MLLM) können zwar Text erkennen, mangelt es ihnen jedoch an einem allgemeinen Verständnis der Struktur von Rich-Text-Dokumentbildern. Um dieses Problem zu lösen, betont mPLUG-DocOwl1.5 die Bedeutung von Strukturinformationen beim visuellen Dokumentverständnis und schlägt „Unified Structure Learning“ vor, um die Leistung von MLLMs zu verbessern.
Das „Unified Structure Learning“ des Modells umfasst fünf Bereiche: Dokumente, Webseiten, Tabellen, Diagramme und natürliche Bilder, einschließlich strukturbewusster Parsing-Aufgaben und Textlokalisierungsaufgaben mit mehreren Granularitäten. Um Strukturinformationen besser zu kodieren, haben die Forscher einen einfachen und effektiven visuellen-zu-text-Modul namens H-Reducer entwickelt. Dieser behält nicht nur Layoutinformationen bei, sondern reduziert auch die Länge der visuellen Merkmale durch die konvolutionelle Zusammenführung horizontal benachbarter Bildblöcke, sodass große Sprachmodelle hochauflösende Bilder effizienter verstehen können.
Zusätzlich zum Support des strukturierten Lernens hat das Forschungsteam basierend auf öffentlich verfügbaren Datensätzen einen umfassenden Trainingssatz namens DocStruct4M mit 4 Millionen Beispielen erstellt. Dieser enthält strukturbewusste Textsequenzen und Text-Bounding-Boxes mit mehreren Granularitäten. Um die Inferenzfähigkeit von MLLMs im Dokumentbereich weiter zu verbessern, haben sie außerdem einen Inferenz-Feinabstimmungsdatensatz namens DocReason25K mit 25.000 qualitativ hochwertigen Beispielen erstellt.
mPLUG-DocOwl1.5 verwendet ein zweistufiges Trainingsframework: Zuerst wird das Unified Structure Learning durchgeführt, dann erfolgt eine Multi-Task-Feinabstimmung in mehreren Downstream-Aufgaben. Durch diese Trainingsmethode erreicht mPLUG-DocOwl1.5 in 10 Benchmarks für visuelles Dokumentverständnis die beste Leistung und verbessert die SOTA-Leistung von 7B LLMs in 5 Benchmarks um mehr als 10 Prozentpunkte.
Derzeit sind Code, Modell und Datensätze von mPLUG-DocOwl1.5 auf GitHub öffentlich verfügbar.
Projekt-Adresse: https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
Paper-Adresse: https://arxiv.org/pdf/2403.12895