朗報です!上海AI Labチームが、OpenAIの数学問題解決AI「o1」を再現することを目指したLLaMA版o1プロジェクトを発表しました。このプロジェクトは、モンテカルロ木探索、自己対戦型強化学習、PPO、そしてAlphaGo Zeroの二重戦略パラダイムなど、複数の先進技術を採用しており、開発者コミュニティから大きな注目を集めています。

image.png

上海AI Labチームは、OpenAIのo1シリーズ発表前から、モンテカルロ木探索を利用して大規模言語モデルの数学能力向上に取り組んでいました。o1発表後、チームはアルゴリズムをさらに改良し、数学オリンピックの問題に焦点を当て、OpenAIの「ストロベリープロジェクト」のオープンソース版として開発を進めました。

LLaMAモデルの数学オリンピック問題における性能向上のため、チームはペアワイズ最適化戦略を採用しました。これは、答えの絶対的なスコアを与えるのではなく、2つの答えの相対的な優劣を比較するというものです。この方法により、最も難しいAIME2024ベンチマークテストで目覚ましい進歩を遂げました。30問のテスト問題のうち、最適化後のモデルは8問正解しましたが、元のLLaMA-3.1-8B-Instructモデルは2問しか正解しませんでした。この成果は、o1-previewとo1-miniを除く他の商用クローズドソースソリューションを上回っています。

image.png

10月末、チームはAlphaGo Zeroアーキテクチャに基づいてOpenAI o1を再現することに大きな進展があったと発表し、モデルが学習過程で探索木との相互作用を通じて高度な思考能力を獲得することに成功したと報告しました。人工的な注釈は必要ありませんでした。そしてわずか1週間後、プロジェクトはオープンソース化されました。

現在、オープンソース化されているLLaMA版o1の内容には、事前学習データセット、事前学習モデル、強化学習トレーニングコードが含まれています。「OpenLongCoT-Pretrain」データセットには、10万件以上の長い思考連鎖データが含まれており、各データには、思考内容、評価結果、問題の説明、グラフ座標、計算過程、結論の導出など、完全な推論チェーンが含まれています。さらに、各推論ステップに対する批判と検証の内容も含まれており、推論過程の評価とガイダンスを提供します。このデータセットでの継続的な事前学習により、モデルはo1のように長い思考連鎖過程を読み書きできるようになります。

image.png

プロジェクト名はLLaMA-O1ですが、現在公式に提供されている事前学習モデルはGoogleのGemma2に基づいています。開発者は、事前学習モデルに基づいて、強化学習トレーニングを続けることができます。トレーニングプロセスには、モンテカルロ木探索を使用して自己対戦を行い経験を生成すること、経験を優先経験再生バッファに保存すること、バッファからバッチデータのサンプリングを行いトレーニングすること、モデルパラメータと経験の優先順位を更新することが含まれます。トレーニングコードでは、LoRAを使用したパラメータ効率的な微調整、PPOアルゴリズムを戦略最適化方法として使用すること、GAEアルゴリズムを実装してアドバンテージ関数を計算すること、優先経験再生を使用してトレーニング効率を向上させることなど、いくつかの重要な技術も使用されています。

注目すべきは、LLaMA-O1コードがSimpleBerryというGitHubアカウントで公開されていることです。このアカウントには特別な説明がなく、やや謎めいています。SimpleBerry関連の他のアカウントやウェブサイトの情報からは、研究室であることは分かりますが、研究方向に関する詳細は明らかになっていません。

LLaMA-O1以外にも、上海交通大学チームによるo1再現プロジェクト「O1-Journey」の進展が公開されています。同チームは10月初めに最初の進捗報告を発表し、革新的なJourney Learningパラダイムと、探索と学習を数学的推論に初めて統合することに成功したモデルを紹介しました。O1-Journeyの中核開発チームは、主に上海交通大学3年生、4年生の学部生と、上海交通大学GAIR研究所(生成AI研究研究所)の1年生の博士課程の学生で構成されており、劉鵬飛准教授、姚班卒業生でスローン賞受賞者の李遠志氏などが指導教員を務めています。

論文アドレス:https://arxiv.org/pdf/2410.02884

https://arxiv.org/pdf/2406.07394