AIによる世界理解に特化してきたGroundlight研究チームが、この度画期的な成果を発表しました。全く新しいAIフレームワークをオープンソース化したのです!このフレームワークは、画像認識分野における大きな課題である複雑な視覚的推論を克服することを目指し、AIが単に「画像を認識する」だけでなく、シャーロック・ホームズのように画像からより深い情報を推論できるようにします。
ご存知のように、現在のAIは猫や犬の識別においては既に高い精度を誇ります。しかし、画像の裏にある論理関係を理解し、より複雑な推論を行うとなると、しばしば行き詰まってしまいます。Groundlightの研究者らは、現在の視覚言語モデル(VLM)は、画像そのものの理解が不十分な状況では、より深い解釈を必要とするタスクをこなすことがさらに困難になると指摘しています。
大規模言語モデル(LLM)はテキスト推論において大きな進歩を遂げていますが、視覚分野における同様のブレークスルーはまだ限られています。既存のVLMは、視覚的およびテキストの手がかりを組み合わせて論理的推論を行う必要がある場合、しばしば不十分な結果を示し、その能力の重要な欠陥を浮き彫りにしています。画像内の物体を認識するだけでは不十分であり、物体間の関係とコンテキスト情報を理解することが重要です。
強化学習による支援、GRPOが「最強の頭脳」を実現
VLMの視覚的推論能力を向上させるために、Groundlightの研究チームは独創的な方法として強化学習を採用し、さらにGRPO(Gradient Ratio Policy Optimization)を活用することで学習効率を向上させました。
Deepseekの研究や言語モデルの先進的な推論など、以前の研究ではこれらの技術をVLM分野に拡張したものはほとんどありませんでした。研究者らは、自らの手法を検証するために、視覚情報とテキスト情報を同時に処理する必要がある暗号解読タスクを設計しました。モデルは、ランダムに生成されたデコーダ画像を使用してコード化された情報を解読する必要があり、最終的に、わずか30億パラメータのモデルで96%の精度を達成しました!注意機構分析によると、モデルはタスク解決時に視覚入力に積極的に関与し、関連するデコーダ領域に焦点を当てていることが示されました。
GRPOを用いたVLMの訓練は、特にトークナイゼーション(単語分割)と報酬設計において容易ではありませんでした。モデルは通常、テキストを単語ではなくトークンとして処理するため、正確な文字レベルの推論が必要なタスクでは困難が生じる可能性があります。
この問題を軽減するために、研究者らはメッセージの文字間にスペースを追加することで、デコードプロセスを簡素化しました。報酬設計は、強化学習モデルが効果的に学習するためには、適切なフィードバックが不可欠なもう一つの重要な要素です。研究者らは、出力の一貫性を確保するためのフォーマット報酬、ランダムなテキストを意味のある変換に促すデコード報酬、精度を向上させる正解報酬という3種類の報酬を使用しました。これらの報酬を慎重に調整することで、モデルが予期せぬ「近道」を学習することを回避し、暗号解読能力の真の向上を確保することに成功しました。
GRPOは、直接的な勾配計算に依存するのではなく、複数の出力を比較することで学習プロセスを最適化し、訓練の安定性を高めます。複数の応答を生成し、相互に評価することで、より滑らかな学習曲線が実現しました。この研究は、推論ベースのタスクにおけるVLMの可能性を強調していますが、複雑な視覚モデルによる高い計算コストも認めています。
効率性の問題に対処するために、彼らは選択的モデルアップグレードなどの技術を提案しています。これは、曖昧な場合にのみ、より高価なモデルを使用するというものです。さらに、彼らは事前学習された物体検出、セグメンテーション、深度推定モデルの統合を提案し、計算コストを大幅に増加させることなく推論能力を高めています。このツールベースのアプローチは、大規模なエンドツーエンドモデルの訓練に対する拡張可能な代替手段を提供し、効率性と精度の両方を重視しています。
Groundlightチームは、強化学習技術、特にGRPOを統合することで、VLMの強化において著しい進歩を遂げました。彼らは暗号解読タスクで自らの手法をテストし、モデルは印象的な精度を示しました。
プロジェクト:https://github.com/groundlight/r1_vlm
デモ:https://huggingface.co/spaces/Groundlight/grpo-vlm-decoder