Das AI-Forschungsteam von Alibaba hat kürzlich im Bereich des Dokumentenverständnisses bemerkenswerte Fortschritte erzielt und mPLUG-DocOwl1.5 vorgestellt, ein Spitzenmodell, das bei Aufgaben zum Verständnis von Dokumenten ohne OCR (Optical Character Recognition) herausragende Leistungen zeigt.

image.png

Bisher waren wir bei der Bearbeitung von Dokumentenverständnisaufgaben in der Regel auf OCR-Technologien angewiesen, um Text aus Bildern zu extrahieren. Dies ist jedoch oft durch komplexe Layouts und visuelles Rauschen beeinträchtigt. mPLUG-DocOwl1.5 umgeht diesen Engpass durch ein neuartiges, einheitliches Lernframework, das direkt aus Bildern lernt und Dokumente versteht.

Das Modell analysiert die Layout- und Organisationsfähigkeiten von Dokumenten in verschiedenen Bereichen und umfasst fünf Bereiche: allgemeine Dokumente, Tabellen, Diagramme, Webseiten und natürliche Bilder. Es erkennt nicht nur Texte präzise, sondern nutzt auch Leerzeichen und Zeilenumbrüche, um die Dokumentstruktur zu verstehen.

image.png

Für Tabellen generiert das Modell ein strukturiertes Markdown-Format, während es beim Parsen von Diagrammen die Beziehungen zwischen Legende, Achsen und Werten versteht und diese in Datentabellen umwandelt. Darüber hinaus kann mPLUG-DocOwl1.5 Text aus natürlichen Bildern extrahieren.

Im Bereich der Textlokalisierung kann mPLUG-DocOwl1.5 Wörter, Phrasen, Zeilen und Blöcke erkennen und lokalisieren, um eine präzise Ausrichtung zwischen Text und Bildbereich zu gewährleisten. Die zugrunde liegende H-Reducer-Architektur kombiniert visuelle Merkmale durch Faltungsoperationen horizontal, reduziert die Sequenzlänge bei gleichzeitiger Beibehaltung des räumlichen Layouts und verbessert so die Verarbeitungseffizienz.

Für das Training des Modells wurden zwei sorgfältig ausgewählte Datensätze verwendet: DocStruct4M, ein groß angelegter Datensatz, der sich auf einheitliches strukturiertes Lernen konzentriert, und DocReason25K, der die Inferenzfähigkeit des Modells durch schrittweise Fragen und Antworten testet.

Die Ergebnisse zeigen, dass mPLUG-DocOwl1.5 in zehn Benchmark-Tests neue Rekorde aufgestellt hat und bei der Hälfte der Aufgaben eine Verbesserung um über 10 Punkte gegenüber vergleichbaren Modellen erzielt hat. Darüber hinaus zeigt es hervorragende Fähigkeiten im sprachlichen Schlussfolgern und kann detaillierte schrittweise Erklärungen für seine Antworten generieren.

Obwohl mPLUG-DocOwl1.5 in vielerlei Hinsicht bemerkenswerte Fortschritte erzielt hat, sind sich die Forscher bewusst, dass das Modell noch Verbesserungspotenzial hat, insbesondere bei der Behandlung inkonsistenter oder fehlerhafter Aussagen. Zukünftig möchte das Team das einheitliche Lernframework erweitern, um mehr Dokumenttypen und -aufgaben abzudecken und die Weiterentwicklung der Dokumenten-KI voranzutreiben.

Paper: https://arxiv.org/abs/2403.12895

Code: https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

Wichtigste Punkte:

📄 mPLUG-DocOwl1.5 ist ein KI-Modell, das bei Aufgaben zum Verständnis von Dokumenten ohne OCR herausragende Leistungen zeigt.

🔍 Das Modell kann Dokumentlayouts analysieren, umfasst verschiedene Dokumenttypen und lernt direkt aus Bildern.

📈 mPLUG-DocOwl1.5 hat in zehn Benchmark-Tests neue Rekorde aufgestellt und zeigt hervorragende Fähigkeiten im sprachlichen Schlussfolgern.