デジタル時代において、画像内のテキストを迅速に編集可能なテキストに変換することは、一般的かつ重要なニーズです。今、GOT(汎用光学文字認識理論)と呼ばれる新しい光学文字認識(OCR)モデルが登場し、OCR技術は2.0時代へと突入しました。この革新的なモデルは、従来のOCRシステムと大規模言語モデルの長所を融合し、より効率的でインテリジェントなテキスト認識ツールを目指しています。

GOTモデルは革新的なエンドツーエンドアーキテクチャを採用しており、これはリソースの節約だけでなく、認識能力の大幅な拡張にもつながり、テキスト認識のみに限定されません。このモデルは、約8000万パラメータの画像エンコーダと、約500万パラメータのデコーダで構成されています。画像エンコーダは最大1024x1024ピクセルの画像をデータユニットに圧縮し、デコーダはこれらのデータを最大8000文字のテキストに変換します。

image.png

GOTの強みは、その万能性にあります。英語や中国語の文書やシーンテキストの認識変換だけでなく、数学や化学の公式、楽譜、単純な幾何図形、様々なグラフなども処理できます。これにより、GOTは真のマルチタスクツールとなっています。

このモデルのトレーニングのために、研究チームはまずテキスト認識タスクに焦点を当て、次にアリババのQwen-0.5Bをデコーダとして採用し、様々な合成データを用いて微調整を行いました。LaTeX、Mathpix-markdown-it、Matplotlibなどの専門的なレンダリングツールを使用して、数百万の画像・テキストペアを生成し、モデルのトレーニングに使用しました。

image.png

OCR2.0技術のもう一つの大きな特徴は、フォーマットされたテキスト、見出し、さらには複数ページの画像を抽出し、構造化されたデジタル形式に変換できることです。これは、科学、音楽、データ分析などの分野における自動処理と分析に新たな可能性を提供します。

様々なOCRタスクのテストにおいて、GOTは卓越した性能を示し、文書とシーンテキスト認識において業界をリードする成果を収め、グラフ認識においても多くの専門モデルや大規模言語モデルを凌駕しました。複雑な化学構造式から楽譜、データ可視化まで、OCR2.0は正確に捉え、機械で読み取り可能な形式に変換します。

より多くのユーザーがこの技術を体験し、利用できるように、研究チームはHugging Faceプラットフォームで無料のデモとコードを公開しました。OCR2.0の登場は、情報処理分野に革命をもたらすことは間違いなく、効率の向上だけでなく、柔軟性も高まり、画像内のテキスト情報の処理がより容易になります。