Forscher haben kürzlich ein neues, universelles optisches Zeichenerkennungssystem (OCR) namens GOT (General OCR Theory) entwickelt. In ihrer Veröffentlichung wird erstmals das Konzept von „OCR 2.0“ vorgestellt. Dieses neue Modell vereint die Vorteile traditioneller OCR-Systeme mit der Leistungsfähigkeit großer Sprachmodelle.

Die Architektur von GOT ist bemerkenswert fortschrittlich und umfasst einen Bildkodierer mit etwa 80 Millionen Parametern und einen Dekodierer mit 5 Millionen Parametern. Der Bildkodierer komprimiert Bilder mit einer Auflösung von 1024 x 1024 Pixel in Tokens, während der Dekodierer diese Tokens in Text mit einer Länge von bis zu 8000 Zeichen umwandelt. Dadurch kann das OCR 2.0-Modell weit mehr als nur einfachen Text verarbeiten.

Das Besondere an dieser neuen Technologie ist ihre Fähigkeit, verschiedene Arten visueller Informationen zu erkennen und zu konvertieren, darunter sowohl englische als auch chinesische Szenen- und Dokumententexte, mathematische und chemische Formeln, Noten, einfache geometrische Formen und Diagramme mit Komponenten. Diese Funktionalität eröffnet neue Möglichkeiten für die automatisierte Verarbeitung in Bereichen wie Wissenschaft, Musik und Datenanalyse.

image.png

Um den Trainingsprozess zu optimieren, trainierte das Forschungsteam den Kodierer zunächst nur für die Texterkennung. Anschließend wurde Alibabas Qwen-0.5B als Dekodierer integriert, und das Modell wurde mit diversen synthetischen Daten feinabgestimmt. Millionen von Bild-Text-Paaren wurden mithilfe von Rendering-Tools wie LaTeX, Mathpix-markdown-it, TikZ, Verovio, Matplotlib und Pyecharts generiert.

image.png

Das modulare Design von GOT ermöglicht die flexible Erweiterung um neue Funktionen, ohne das gesamte Modell neu trainieren zu müssen. Dies erhöht die Effizienz der Systemupdates erheblich. Die Forscher berichten, dass GOT in verschiedenen OCR-Aufgaben hervorragende Leistungen zeigt, insbesondere bei der Erkennung von Dokumenten- und Szenentexten, und sogar einige spezialisierte Modelle und große Sprachmodelle in der Diagramerkennung übertrifft.

image.png

Erwähnenswert ist, dass das Forschungsteam eine kostenlose Demo und den Code von GOT auf Hugging Face veröffentlicht hat, damit andere ihn nutzen und weiterentwickeln können. Dieses neue Modell wird die Entwicklung der OCR-Technologie zweifellos vorantreiben und neue Anwendungsmöglichkeiten eröffnen.

Demo-Zugang: https://huggingface.co/spaces/stepfun-ai/GOT_official_online_demo

Wichtigste Punkte:

📌 GOT (General OCR Theory) ist ein neuartiges OCR-Modell, das traditionelle OCR-Systeme mit großen Sprachmodellen kombiniert und als OCR 2.0 bezeichnet wird.

📌 Das Modell kann verschiedene visuelle Informationen erkennen und konvertieren, darunter Text, Formeln, Noten und Diagramme, und ist daher vielseitig einsetzbar.

📌 Das modulare Design und das Training mit synthetischen Daten ermöglichen eine flexible Erweiterung von GOT, das in zahlreichen OCR-Aufgaben hervorragende Ergebnisse erzielt.