El instituto de investigación de Alibaba, DAMO Academy, y la Universidad Renmin de China han publicado conjuntamente un modelo de procesamiento de documentos llamado mPLUG-DocOwl1.5. Este modelo destaca por su capacidad de comprender el contenido de documentos sin necesidad de reconocimiento OCR (Reconocimiento Óptico de Caracteres), y ha logrado un rendimiento líder en varias pruebas de referencia de comprensión visual de documentos.
La información estructural es crucial para comprender el significado semántico de imágenes de texto enriquecido (como documentos, tablas y gráficos). Si bien los modelos lingüísticos de gran tamaño multimodales (MLLM) existentes tienen capacidad de reconocimiento de texto, carecen de una comprensión estructural universal de las imágenes de documentos de texto enriquecido. Para abordar este problema, mPLUG-DocOwl1.5 enfatiza la importancia de la información estructural en la comprensión visual de documentos y propone el "aprendizaje estructural unificado" para mejorar el rendimiento de los MLLM.
El "aprendizaje estructural unificado" del modelo abarca cinco áreas: documentos, páginas web, tablas, gráficos e imágenes naturales, incluyendo tareas de análisis con percepción de estructura y tareas de localización de texto de grano múltiple. Para codificar mejor la información estructural, los investigadores diseñaron un módulo visual-a-texto simple y eficiente, H-Reducer, que no solo conserva la información de diseño, sino que también reduce la longitud de las características visuales mediante la fusión convolucional de bloques de imágenes horizontales adyacentes, permitiendo que los modelos de lenguaje de gran tamaño comprendan imágenes de alta resolución de manera más eficiente.
Además, para apoyar el aprendizaje estructural, el equipo de investigación construyó DocStruct4M, un conjunto de datos de entrenamiento integral que contiene 4 millones de muestras, basado en conjuntos de datos públicamente disponibles. Este conjunto incluye secuencias de texto con percepción de estructura y pares de cuadros delimitadores de texto de grano múltiple. Para estimular aún más la capacidad de razonamiento de los MLLM en el ámbito de los documentos, también crearon DocReason25K, un conjunto de datos de ajuste fino de inferencia con 25.000 muestras de alta calidad.
mPLUG-DocOwl1.5 utiliza un marco de entrenamiento de dos etapas: primero, se realiza el aprendizaje estructural unificado, y luego se realiza un ajuste fino multitarea en varias tareas posteriores. A través de este método de entrenamiento, mPLUG-DocOwl1.5 ha logrado el rendimiento más avanzado en 10 pruebas de referencia de comprensión visual de documentos, mejorando el rendimiento SOTA de los LLM de 7B en más de 10 puntos porcentuales en 5 pruebas de referencia.
Actualmente, el código, el modelo y los conjuntos de datos de mPLUG-DocOwl1.5 se han publicado públicamente en GitHub.
Dirección del proyecto: https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
Dirección del artículo: https://arxiv.org/pdf/2403.12895