En la era digital, la conversión rápida de texto contenido en imágenes a texto editable es una necesidad común e importante. Ahora, el lanzamiento de un nuevo modelo de reconocimiento óptico de caracteres (OCR), llamado GOT (Teoría Óptica de Caracteres Generalizada), marca el comienzo de la era 2.0 de la tecnología OCR. Este innovador modelo combina las ventajas de los sistemas OCR tradicionales con los modelos de lenguaje grandes, con el objetivo de crear una herramienta de reconocimiento de texto más eficiente e inteligente.

El modelo GOT emplea una innovadora arquitectura de extremo a extremo. Este diseño no solo ahorra recursos, sino que también amplía enormemente la capacidad de reconocimiento, yendo más allá del simple reconocimiento de texto. El modelo consta de un codificador de imágenes con aproximadamente 80 millones de parámetros y un decodificador con aproximadamente 5 millones de parámetros. El codificador de imágenes puede comprimir imágenes de hasta 1024x1024 píxeles en unidades de datos, mientras que el decodificador convierte estos datos en texto de hasta 8000 caracteres.

image.png

La potencia de GOT reside en su versatilidad. No solo puede reconocer y convertir documentos en inglés y chino, así como texto en escenas, sino que también puede procesar fórmulas matemáticas y químicas, símbolos musicales, figuras geométricas simples y diversos tipos de gráficos. Esto convierte a GOT en una herramienta verdaderamente multifacética.

Para entrenar este modelo, el equipo de investigación se centró inicialmente en tareas de reconocimiento de texto. Luego, utilizaron Qwen-0.5B de Alibaba como decodificador y realizaron un ajuste fino con diversos datos sintéticos. Generaron millones de pares imagen-texto utilizando herramientas de renderizado profesionales como LaTeX, Mathpix-markdown-it y Matplotlib para el entrenamiento del modelo.

image.png

Otro punto destacado de la tecnología OCR 2.0 es su capacidad para extraer texto formateado, títulos e incluso imágenes de varias páginas y convertirlos en un formato digital estructurado. Esto ofrece nuevas posibilidades para el procesamiento y análisis automatizado en campos como la ciencia, la música y el análisis de datos.

En las pruebas realizadas en diversas tareas de OCR, GOT demostró un rendimiento excepcional, logrando resultados líderes en la industria en el reconocimiento de documentos y texto en escenas, e incluso superando a muchos modelos profesionales y modelos de lenguaje grandes en el reconocimiento de gráficos. Ya sea una compleja fórmula química, símbolos musicales o visualización de datos, OCR 2.0 puede capturar y convertir con precisión la información en un formato legible por máquina.

Para que más usuarios puedan experimentar y aprovechar esta tecnología, el equipo de investigación ha publicado una demostración y el código de forma gratuita en la plataforma Hugging Face. La llegada de OCR 2.0 sin duda ha revolucionado el campo del procesamiento de información, aumentando no solo la eficiencia, sino también la flexibilidad, lo que nos permite manejar la información textual en imágenes de forma más eficiente y sencilla.