360智脳チーム、Deepseek強化学習効果の再現に成功、オープンソースモデルLight-R1-14B-DSを発表

AIbase基地

公開日AIニュース · 1 分で読めます · Mar 14, 2025

この度、360智脳チームはDeepseekの強化学習効果の再現に成功し、オープンソースの推論モデルLight-R1-14B-DSを正式にリリースしたことを発表しました。このモデルはDeepSeek-R1-Distill-Llama-70BやDeepSeek-R1-Distill-Qwen-32Bを上回る性能を示し、14Bパラメータ規模で強化学習効果を実現した業界初のモデルとなりました。数学的推論能力が大幅に向上し、その成績は多くの32Bレベルのモデルを凌駕しています。

DeepSeek-R1-14Bと比較して、Light-R1-14B-DS*は数学コンテストタスクにおいて顕著な成果を上げています。AIME24テストでは4.3点向上し、AIME25ではなんと10点も向上しました。さらに、数学的推論タスクGPQAでは61.7点という優れた成績を収めています。

このブレークスルーを実現するため、360智脳チームは2つの革新的な訓練方法を採用しました。1つ目はCurriculum SFT（段階的教師あり微調整）で、段階的な訓練を通して、モデルが簡単な数学問題から徐々に複雑な問題へと移行し、論理的推論能力をさらに強化します。2つ目は強化学習(RL)で、14Bレベルの推論モデルへの適用に初めて成功し、推論精度を高めるだけでなく、他のスキルもほぼ損なうことなく維持しています。

今回のリリースにはモデル自体だけでなく、SFTデータ、コード、技術レポートもオープンソースとして公開され、業界にとって貴重なリソースとなります。この成果は、中小規模モデルにおける強化学習分野の大きな進歩を示しており、AI推論能力のさらなる普及と発展を促進する可能性があります。

プロジェクトアドレス:https://github.com/Qihoo360/Light-R1

モデルアドレス:https://huggingface.co/qihoo360/Light-R1-14B-DS

データアドレス:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData

アリババ医療大規模言語モデル、MedBench評価で2冠達成　医療AIの新時代をリード

先日、中国を代表する医療大規模言語モデル評価プラットフォームMedBenchが最新のランキングを発表しました。その中で、アリババ医療チームが開発したアリババ医療大規模言語モデルは、卓越した性能で評価ランキングと自己評価ランキングの両方で1位を獲得し、それぞれ97.5点と98.2点の高得点を記録、業界から大きな注目を集めています。アリババ医療大規模言語モデルの成功は、医療推論モデル開発におけるチームの継続的な努力の賜物です。同チームは最近、強化学習に基づく技術を採用し、次世代の医療推論モデルを開発しました。この革新により、モデルは…

アリババ通義、R1-Omniモデルをオープンソース化　多モーダル感情認識能力向上

3月11日、通義实验室チームはR1-Omniモデルのオープンソース化を発表し、全モーダルモデルの発展に新たなブレークスルーをもたらしました。このモデルは強化学習と検証可能な報酬（RLVR）手法を組み合わせ、多モーダル感情認識タスクにおける推論能力と汎化性能の向上に重点を置いています。R1-Omniのトレーニングは2段階で行われます。コールドスタート段階では、Explainable Multimodal Emotioから取得した580本のビデオデータを含む複合データセットを使用して微調整が行われます。

360智脳がTiny-R1-32Bを発表：パラメータ5％でDeepseek-R1のフル性能に迫る

360智脳チームと北京大学が共同開発した中規模推論モデルTiny-R1-32B-Previewが正式にリリースされました。このモデルは、パラメータ数がわずか5％であるにもかかわらず、Deepseek-R1-671Bのフル性能に迫ることに成功し、小規模モデルが効率的な推論分野において大きな可能性を秘めていることを示しました。このモデルは、数学分野を始めとする複数の重要な分野で特に優れた性能を発揮しています。Tiny-R1-32B-Previewは…