Im digitalen Zeitalter ist die schnelle Umwandlung von Textinhalten in Bildern in editierbaren Text eine häufige und wichtige Anforderung. Die Einführung eines neuen optischen Zeichenerkennung (OCR)-Modells namens GOT (General Optical Character Recognition Theory) markiert den Beginn des OCR-Zeitalters 2.0. Dieses innovative Modell kombiniert die Vorteile traditioneller OCR-Systeme mit großen Sprachmodellen, um ein effizienteres und intelligenteres Texterkennungstool zu schaffen.

Das GOT-Modell verwendet eine innovative End-to-End-Architektur. Dieses Design spart nicht nur Ressourcen, sondern erweitert auch die Erkennungsfähigkeit erheblich und beschränkt sich nicht nur auf die Texterkennung. Das Modell besteht aus einem Bildkodierer mit etwa 80 Millionen Parametern und einem Dekodierer mit etwa 5 Millionen Parametern. Der Bildkodierer kann Bilder mit einer Größe von bis zu 1024 x 1024 Pixel in Dateneinheiten komprimieren, während der Dekodierer diese Daten in Text mit bis zu 8000 Zeichen umwandelt.

image.png

Die Stärke von GOT liegt in seiner Vielseitigkeit. Es kann nicht nur englische und chinesische Dokumente und Szenentext erkennen und umwandeln, sondern auch mathematische und chemische Formeln, Musiknotationen, einfache geometrische Formen und verschiedene Diagramme verarbeiten. Dies macht GOT zu einem echten Allrounder.

Um dieses Modell zu trainieren, konzentrierte sich das Forschungsteam zunächst auf Texterkennungsaufgaben. Sie verwendeten Alibabas Qwen-0.5B als Dekodierer und führten ein Feintuning mit verschiedenen synthetischen Daten durch. Mit professionellen Rendering-Tools wie LaTeX, Mathpix-markdown-it und Matplotlib wurden Millionen von Bild-Text-Paaren für das Modelltraining generiert.

image.png

Ein weiteres Highlight der OCR 2.0-Technologie ist die Fähigkeit, formatierten Text, Überschriften und sogar mehrseitige Bilder zu extrahieren und in ein strukturiertes digitales Format umzuwandeln. Dies eröffnet neue Möglichkeiten für die automatisierte Verarbeitung und Analyse in Bereichen wie Wissenschaft, Musik und Datenanalyse.

In Tests verschiedener OCR-Aufgaben zeigte GOT eine hervorragende Leistung und erzielte branchenführende Ergebnisse bei der Dokument- und Szenentext-Erkennung. Sogar bei der Diagramerkennung übertraf es viele spezialisierte Modelle und große Sprachmodelle. Ob komplexe chemische Strukturformeln, Musiknotationen oder Datenvisualisierungen – OCR 2.0 erfasst und wandelt sie präzise in ein maschinenlesbares Format um.

Um mehr Nutzern den Zugang zu dieser Technologie zu ermöglichen, hat das Forschungsteam eine kostenlose Demo und den Code auf der Hugging Face-Plattform veröffentlicht. Das Aufkommen von OCR 2.0 bedeutet zweifellos eine Revolution im Bereich der Informationsverarbeitung. Es erhöht nicht nur die Effizienz, sondern auch die Flexibilität und ermöglicht eine deutlich komfortablere Verarbeitung von Textinformationen in Bildern.