アリババ国際AIチームは最近、Marco-o1という新しい推論モデルを発表しました。このモデルは、プログラミングや数学のような標準的な答えを持つ分野だけでなく、開放的な問題解決に特に焦点を当てています。研究チームは、このようなモデルが、定量化が難しく明確な報酬がない分野にも効果的に適用できるかどうかを探求することに取り組んでいます。

微信截图_20241126082757.png

Marco-o1モデルの特徴には、超長のCoTデータを用いた微調整、MCTSによる解空間の拡張、細粒度の解空間拡張などが含まれます。このモデルは、self-play+MCTSを用いて、反省と修正能力を持つ超長のCoTデータを作成し、他のオープンソースデータと合わせて学習しています。さらに、研究チームはmini-Stepを定義することで、モデルの解空間をさらに拡大し、より優れた回答を出力するように導いています。

翻訳タスクにおいて、Marco-o1モデルは、長くて難しい文章の翻訳能力を示しました。これは、推論時の拡張を機械翻訳タスクに適用した初めての事例です。研究チームは、一部のCoTデータと現在最高のモデルを公開しており、今後さらに多くのデータとモデルを公開する予定です。

微信截图_20241126082711.png

このモデルは推論時にレスポンスを深く考察します。例えば、「strawberry」という単語の中の「r」の数を出す際、モデルは単語の各文字を段階的に分解して比較し、最終的に正しい結果を出力します。機械翻訳分野では、モデルは推論経路を通じて難点を正しく識別し、単語ごとに翻訳することで、翻訳の全体的な精度を向上させています。

研究チームは他の分野でも試行を行い、このモデルが他の一般的な現実問題を解決できる能力を持っていることを証明しました。Marco-o1の全体的な構造は、self-play+MCTSを用いて、反省と修正能力を持つ超長のCoTデータを作成し、他のオープンソースデータと合わせて学習しています。また、研究チームはMarcoPoloファミリーの一部の指示遵守データセットを取り入れることで、モデルの指示遵守能力を向上させています。

使用方法については、研究チームは推論コードと微調整コードを提供しており、ユーザーは簡単にモデルとトークナイザーをロードして、チャットを開始したり、モデルを微調整したりすることができます。さらに、このモデルはModelScopeのGGUFバージョンでも直接実行でき、より迅速な体験方法を提供しています。

Marco-o1モデルの発表は、アリババ国際AIチームが推論モデル分野で重要な一歩を踏み出したことを示しており、開放的な問題解決のための新しい考え方とツールを提供しています。

ModelScope:

https://modelscope.cn/models/AIDC-AI/Marco-o1

Arxiv:

https://arxiv.org/abs/2411.14405

Github:

https://github.com/AIDC-AI/Marco-o1

Hugging Face:

https://huggingface.co/AIDC-AI/Marco-o1