2月24日、360智脳チームと北京大学が共同で開発した中規模推論モデルTiny-R1-32B-Previewが正式にリリースされました。このモデルは、パラメータ数をわずか5%に抑えながら、Deepseek-R1-671Bのほぼ同等の性能を実現し、小規模モデルが効率的な推論分野で大きな可能性を秘めていることを示しました。
このモデルは、いくつかの重要な分野で特に優れた性能を発揮しています。数学分野では、AIME2024評価で78.1点を獲得し、オリジナルのR1モデルの79.8点に非常に近いスコアを記録しました。これは、Deepseek-R1-Distill-Llama-70Bの70.0点を大きく上回っています。プログラミングと科学分野では、LiveCodeBenchとGPQA-Diamondテストでそれぞれ61.6点と65.0点を獲得し、現在の最先端のオープンソース70BモデルであるDeepseek-R1-Distill-Llama-70Bを全面的に凌駕しました。この成果は、Tiny-R1-32B-Previewの優れた性能を実証するだけでなく、パラメータ数をわずか5%にすることで推論コストを大幅に削減し、効率の大幅な向上を実現したことを意味します。
この画期的な成果の背景にある中核技術は、「分割統治-融合」戦略です。研究チームはDeepSeek-R1を用いて大量のドメインデータを生成し、数学、プログラミング、科学の3つの垂直分野のモデルをそれぞれ訓練しました。その後、ArceeチームのMergekitツールを使用してインテリジェントに融合することで、単一モデルの性能限界を突破し、マルチタスクのバランスの取れた最適化を実現しました。この革新的な技術アプローチは、モデルの性能を向上させるだけでなく、将来の推論モデルの発展にも新たな方向性を示唆しています。
360智脳チームと北京大学の共同研究チームは、Tiny-R1-32B-Previewの成功はオープンソースコミュニティの支援があってこそ実現したと述べています。このモデルは、DeepSeek-R1蒸留、DeepSeek-R1-Distill-32B増分トレーニング、およびモデル融合などの技術を活用しています。
技術の普及を促進するため、研究チームは、技術レポート、トレーニングコード、一部のデータセットを含む、完全なモデルリポジトリを公開することを約束しています。モデルリポジトリはHugging Faceプラットフォームに既に公開されており、アドレスはhttps://huggingface.co/qihoo360/TinyR1-32B-Previewです。