昆仑万維が新しい巨大言語モデル報酬モデルSkywork-Rewardを発表

AIbase基地

公開日AIニュース · 1 分で読めます · Sep 13, 2024

235

昆仑万維科技股份有限公司は先日、同社が開発した2つの新しい報酬モデル、Skywork-Reward-Gemma-2-27BとSkywork-Reward-Llama-3.1-8Bが、国際的に権威のある報酬モデル評価基準であるRewardBenchで卓越した性能を示したと発表しました。特にSkywork-Reward-Gemma-2-27Bモデルは首位を獲得し、RewardBench公式から高い評価を得ています。

報酬モデルは強化学習において中心的な役割を担い、エージェントの様々な状況下でのパフォーマンスを評価し、報酬信号を提供することでエージェントの学習過程を導き、特定の環境下で最適な選択ができるようにします。大規模言語モデルの訓練においては、報酬モデルの役割は特に重要であり、モデルが人間の好みに沿った内容をより正確に理解し、生成するのに役立ちます。

微信截图_20240913083436.png

RewardBenchは大規模言語モデルにおける報酬モデルの有効性を評価するためのベンチマークランキングであり、会話、推論、安全性など複数のタスクを通じてモデルを総合的に評価します。このランキングのテストデータセットは、プロンプト、選択された応答、拒否された応答の3つ組で構成され、与えられたプロンプトに対して、選択された応答が拒否された応答よりも正しく上位にランク付けされるかどうかをテストします。

昆仑万維のSkywork-Rewardモデルは、厳選された偏順序データセットと比較的規模の小さい基底モデルを用いて開発されました。既存の報酬モデルと比較して、その偏順序データはインターネット上の公開データのみをソースとし、特定の選別戦略によって高品質な選好データセットが得られています。これらのデータは、安全性、数学、コードなど幅広いトピックを網羅しており、人間の検証を経て、データの客観性と報酬格差の顕著性が確保されています。

テストの結果、昆仑万維の報酬モデルは会話、安全性などの分野で優れた性能を示し、特に困難なサンプルに対しても、Skywork-Reward-Gemma-2-27Bモデルのみが正しい予測を行いました。この成果は、昆仑万維の世界的なAI分野における技術力と革新能力を示すとともに、AI技術の発展と応用にとって新たな可能性をもたらします。

27Bモデルアドレス:

https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27B

8Bモデルアドレス:

https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8B

ボストン・ダイナミクスと前CEO、Atlasロボットの強化学習の進歩を推進

ボストン・ダイナミクス社は今週水曜、電動ヒト型ロボットAtlasの強化学習能力を向上させるための新たなパートナーシップを発表しました。このパートナーシップは、ロボットと人工知能研究所（RAI研究所）と結ばれたもので、かつてボストン・ダイナミクス人工知能研究所と呼ばれていました。同研究所は、マサチューセッツ工科大学（MIT）の元教授であり、ボストン・ダイナミクス前CEOのMarc Raibert氏によって2022年に設立され、ボストン・ダイナミクスの基礎を築いた研究を継続することを目的としています。ボストン・ダイナミクスとRAI研究所は、

DeepSeek、新たな推論モデルDeepSeek-R1を発表 OpenAI-o1に匹敵する性能

この度、DeepSeekは強化学習（RL）を用いてトレーニングされた最初の推論モデルDeepSeek-R1を発表しました。このモデルは複数の推論ベンチマークテストにおいて、OpenAI-o1-1217と同等の性能を達成しました。DeepSeek-R1はDeepSeek-V3-Baseモデルをベースとしており、推論能力の向上のため、多段階トレーニングとコールドスタートデータが採用されています。DeepSeekの研究者たちはまずDeepSeek-R1-Zを開発しました。

アリババQwenチーム、新型プロセス報酬モデルを発表、数学的推論が進化

アリババのQwenチームは先日、「数学的推論におけるプロセス報酬モデルの開発経験と教訓」と題する論文を発表し、7Bと72Bパラメーターを持つ2つの新しいモデル、Qwen2.5-Math-PRMシリーズを発表しました。これらのモデルは、数学的推論において既存のPRMフレームワークの限界を突破し、革新的な技術によって推論モデルの精度と汎化能力を大幅に向上させました。数学的推論は、特に中間推論ステップにおいて、大規模言語モデル（LLM）にとって大きな課題であり、特に中間推論ステップにおける誤りが...

AIニュース

昆仑万維が新しい巨大言語モデル報酬モデルSkywork-Rewardを発表

AIbase基地

関連AIニュースの推奨

雲の上を目指す必要なし！アリババが最新の推論モデルTongyi Qianwen QwQ-32Bをオープンソース化。消費レベルのグラフィックカードでもS級性能を実現！

ボストン・ダイナミクスと前CEO、Atlasロボットの強化学習の進歩を推進

DeepSeek、新たな推論モデルDeepSeek-R1を発表 OpenAI-o1に匹敵する性能

アリババQwenチーム、新型プロセス報酬モデルを発表、数学的推論が進化