Recentemente, pesquisadores desenvolveram um novo modelo universal de reconhecimento óptico de caracteres (OCR), chamado GOT (Teoria Universal de OCR). Em seu artigo, eles propuseram pela primeira vez o conceito de "OCR2.0", um novo modelo que visa combinar as vantagens dos sistemas tradicionais de OCR com a potência dos grandes modelos de linguagem.
A arquitetura do GOT é bastante avançada, contendo um codificador de imagem com aproximadamente 80 milhões de parâmetros e um decodificador com 5 milhões de parâmetros. O codificador de imagem consegue comprimir imagens de 1024x1024 pixels em tokens, enquanto o decodificador é responsável por converter esses tokens em texto com até 8000 caracteres. Dessa forma, o modelo OCR2.0 consegue processar muito mais do que apenas texto simples.
O charme dessa nova tecnologia reside em sua capacidade de reconhecer e converter diversos tipos de informações visuais, incluindo texto e documentos em inglês e chinês, fórmulas matemáticas e químicas, símbolos musicais, formas geométricas simples e gráficos com componentes. Essa funcionalidade, sem dúvida, abre novas possibilidades para o processamento automatizado em áreas como ciência, música e análise de dados.
Para otimizar o processo de treinamento, a equipe de pesquisa primeiro treinou o codificador apenas para tarefas de reconhecimento de texto. Em seguida, introduziram o Qwen-0.5B da Alibaba como decodificador e usaram dados sintéticos diversificados para o ajuste fino do modelo. Eles geraram milhões de pares de imagens e textos de treinamento usando ferramentas de renderização como LaTeX, Mathpix-markdown-it, TikZ, Verovio, Matplotlib e Pyecharts.
O design modular do GOT permite a expansão flexível de novas funcionalidades no futuro, sem a necessidade de treinar novamente todo o modelo. Esse design aumenta significativamente a eficiência de atualização do sistema. Além disso, os pesquisadores afirmam que o GOT apresenta desempenho superior em diversas tarefas de OCR, especialmente no reconhecimento de texto em documentos e em cenas, superando até mesmo alguns modelos especializados e grandes modelos de linguagem no reconhecimento de gráficos.
Vale mencionar que a equipe de pesquisa já disponibilizou a demonstração gratuita e o código do GOT no Hugging Face para uso e desenvolvimento posterior por outros. Esse novo modelo, sem dúvida, impulsionará o desenvolvimento da tecnologia OCR, abrindo perspectivas de aplicação ainda mais amplas.
Entrada da demonstração: https://huggingface.co/spaces/stepfun-ai/GOT_official_online_demo
Destaques:
📌 GOT (Teoria Universal de OCR) é um novo modelo OCR que combina sistemas tradicionais de OCR com grandes modelos de linguagem, chamado OCR2.0.
📌 O modelo consegue reconhecer e converter diversos tipos de informações visuais, incluindo texto, fórmulas, símbolos musicais e gráficos, sendo aplicável a diversas áreas.
📌 O design modular e o treinamento com dados sintéticos permitem que o GOT seja expandido de forma flexível e apresente excelente desempenho em várias tarefas de OCR.