L'institut de recherche DAMO d'Alibaba et l'Université du Peuple chinois ont récemment publié en open source un modèle de traitement de documents appelé mPLUG-DocOwl1.5. Ce modèle se distingue par sa capacité à comprendre le contenu des documents sans avoir besoin de reconnaissance OCR, et il a obtenu des performances de pointe dans plusieurs tests de référence de compréhension visuelle de documents.

L'information structurelle est essentielle pour comprendre la sémantique des images de texte enrichi (documents, tableaux et graphiques, par exemple). Si les grands modèles linguistiques multimodaux (MLLM) actuels possèdent une capacité de reconnaissance de texte, ils manquent d'une compréhension structurelle universelle des images de documents enrichis. Pour résoudre ce problème, mPLUG-DocOwl1.5 met l'accent sur l'importance de l'information structurelle dans la compréhension visuelle des documents et propose un « apprentissage structurel unifié » pour améliorer les performances des MLLM.

1.png

L'« apprentissage structurel unifié » de ce modèle couvre cinq domaines : les documents, les pages web, les tableaux, les graphiques et les images naturelles, incluant des tâches d'analyse perceptive de la structure et des tâches de localisation de texte à plusieurs niveaux de granularité. Pour mieux coder l'information structurelle, les chercheurs ont conçu un module visuel-texte simple et efficace, H-Reducer, qui permet non seulement de conserver les informations de mise en page, mais aussi de réduire la longueur des caractéristiques visuelles en fusionnant les blocs d'images horizontaux adjacents par convolution, permettant ainsi aux grands modèles linguistiques de comprendre plus efficacement les images haute résolution.

2.png

De plus, pour soutenir l'apprentissage structurel, l'équipe de recherche a construit un ensemble de données d'entraînement complet, DocStruct4M, contenant 4 millions d'échantillons à partir de données publiques disponibles. Il comprend des séquences de texte perceptives de la structure et des paires de boîtes englobantes de texte à plusieurs niveaux de granularité. Pour stimuler davantage les capacités de raisonnement des MLLM dans le domaine des documents, ils ont également construit un ensemble de données d'ajustement fin de l'inférence, DocReason25K, contenant 25 000 échantillons de haute qualité.

mPLUG-DocOwl1.5 utilise un cadre d'entraînement en deux étapes : un apprentissage structurel unifié, suivi d'un ajustement fin multitâches sur plusieurs tâches en aval. Grâce à cette méthode d'entraînement, mPLUG-DocOwl1.5 a obtenu les meilleures performances dans 10 tests de référence de compréhension visuelle de documents, améliorant de plus de 10 points de pourcentage les performances SOTA des LLM 7B dans 5 tests de référence.

Actuellement, le code, le modèle et les ensembles de données de mPLUG-DocOwl1.5 sont disponibles en open source sur GitHub.

Adresse du projet : https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

Adresse de l'article : https://arxiv.org/pdf/2403.12895