Récemment, des chercheurs ont développé un nouveau modèle d'OCR (reconnaissance optique de caractères) universel, appelé GOT (théorie de l'OCR universel). Dans leur article, ils présentent pour la première fois le concept d'"OCR 2.0", un nouveau modèle visant à combiner les avantages des systèmes OCR traditionnels avec la puissance des grands modèles de langage.

L'architecture de GOT est assez avancée, comprenant un encodeur d'images d'environ 80 millions de paramètres et un décodeur de 5 millions de paramètres. L'encodeur d'images est capable de compresser des images de 1024x1024 pixels en jetons, tandis que le décodeur convertit ces jetons en texte pouvant atteindre 8000 caractères. De cette manière, le modèle OCR 2.0 peut traiter bien plus que de simples textes.

Le charme de cette nouvelle technologie réside dans sa capacité à identifier et à convertir plusieurs types d'informations visuelles, notamment les textes et documents en anglais et en chinois, les formules mathématiques et chimiques, les symboles musicaux, les formes géométriques simples et les graphiques contenant des composants. Une telle fonctionnalité ouvre sans aucun doute de nouvelles possibilités pour l'automatisation des processus dans des domaines tels que la science, la musique et l'analyse de données.

image.png

Pour optimiser le processus d'entraînement, l'équipe de recherche a d'abord entraîné l'encodeur uniquement sur des tâches de reconnaissance de texte. Ensuite, ils ont intégré Qwen-0.5B d'Alibaba comme décodeur et ont affiné le modèle à l'aide de données synthétiques diversifiées. Ils ont généré des millions de paires image-texte pour l'entraînement en utilisant des outils de rendu tels que LaTeX, Mathpix-markdown-it, TikZ, Verovio, Matplotlib et Pyecharts.

image.png

La conception modulaire de GOT permet une extension flexible des fonctionnalités futures sans avoir à réentraîner l'ensemble du modèle, ce qui améliore considérablement l'efficacité des mises à jour du système. De plus, les chercheurs indiquent que GOT affiche d'excellentes performances dans diverses tâches d'OCR, notamment en matière de reconnaissance de documents et de texte dans des scènes, surpassant même certains modèles spécialisés et grands modèles de langage pour la reconnaissance de graphiques.

image.png

Il est important de noter que l'équipe de recherche a publié une démonstration gratuite et le code de GOT sur Hugging Face, afin que d'autres puissent l'utiliser et le développer. Ce nouveau modèle stimulera sans aucun doute le développement de la technologie OCR et ouvrira des perspectives d'application plus vastes.

Accès à la démo : https://huggingface.co/spaces/stepfun-ai/GOT_official_online_demo

Points clés :

📌 GOT (théorie de l'OCR universel) est un nouveau modèle OCR qui combine les systèmes OCR traditionnels et les grands modèles de langage, appelé OCR 2.0.

📌 Ce modèle peut identifier et convertir plusieurs types d'informations visuelles, notamment le texte, les formules, les symboles musicaux et les graphiques, et s'applique à de nombreux domaines.

📌 La conception modulaire et l'entraînement sur des données synthétiques confèrent à GOT une capacité d'extension flexible, et il excelle dans de nombreuses tâches d'OCR.