Recientemente, investigadores han desarrollado un nuevo modelo de reconocimiento óptico de caracteres (OCR) universal llamado GOT (Teoría Universal de OCR). En su artículo, propusieron por primera vez el concepto de "OCR 2.0", un nuevo modelo que busca combinar las ventajas de los sistemas OCR tradicionales con la potencia de los grandes modelos de lenguaje.
La arquitectura de GOT es bastante avanzada, incluyendo un codificador de imágenes con aproximadamente 80 millones de parámetros y un decodificador con 5 millones de parámetros. El codificador de imágenes puede comprimir imágenes de 1024x1024 píxeles en tokens, mientras que el decodificador se encarga de convertir estos tokens en texto de hasta 8000 caracteres. De esta manera, el modelo OCR 2.0 puede procesar mucho más que texto simple.
El atractivo de esta nueva tecnología radica en su capacidad para reconocer y convertir diversos tipos de información visual, incluyendo texto de escenas y documentos en inglés y chino, fórmulas matemáticas y químicas, símbolos musicales, figuras geométricas simples y gráficos con componentes. Esta funcionalidad sin duda abre nuevas posibilidades para la automatización de procesos en campos como la ciencia, la música y el análisis de datos.
Para optimizar el proceso de entrenamiento, el equipo de investigación primero entrenó el codificador únicamente para tareas de reconocimiento de texto. Luego, incorporaron Qwen-0.5B de Alibaba como decodificador y afinaron el modelo utilizando datos sintéticos diversos. Generaron millones de pares de imágenes y texto utilizando herramientas de renderizado como LaTeX, Mathpix-markdown-it, TikZ, Verovio, Matplotlib y Pyecharts.
El diseño modular de GOT permite la expansión flexible de nuevas funciones en el futuro sin necesidad de volver a entrenar todo el modelo, lo que mejora significativamente la eficiencia de las actualizaciones del sistema. Además, los investigadores afirman que GOT ofrece un rendimiento excelente en diversas tareas de OCR, especialmente en el reconocimiento de texto de documentos y escenas, incluso superando a algunos modelos especializados y grandes modelos de lenguaje en el reconocimiento de gráficos.
Cabe destacar que el equipo de investigación ha publicado una demostración gratuita y el código de GOT en Hugging Face para que otros lo utilicen y desarrollen aún más. Este nuevo modelo sin duda impulsará el desarrollo de la tecnología OCR y abrirá perspectivas de aplicación más amplias.
Enlace de demostración: https://huggingface.co/spaces/stepfun-ai/GOT_official_online_demo
Puntos clave:
📌 GOT (Teoría Universal de OCR) es un nuevo modelo OCR que combina sistemas OCR tradicionales con grandes modelos de lenguaje, denominado OCR 2.0.
📌 Este modelo puede reconocer y convertir diversos tipos de información visual, incluyendo texto, fórmulas, símbolos musicales y gráficos, siendo aplicable a una amplia gama de campos.
📌 El diseño modular y el entrenamiento con datos sintéticos permiten a GOT una expansión flexible y un rendimiento excelente en múltiples tareas de OCR.