昆仑万維科技股份有限公司は先日、同社が開発した2つの新しい報酬モデル、Skywork-Reward-Gemma-2-27BとSkywork-Reward-Llama-3.1-8Bが、国際的に権威のある報酬モデル評価基準であるRewardBenchで卓越した性能を示したと発表しました。特にSkywork-Reward-Gemma-2-27Bモデルは首位を獲得し、RewardBench公式から高い評価を得ています。
報酬モデルは強化学習において中心的な役割を担い、エージェントの様々な状況下でのパフォーマンスを評価し、報酬信号を提供することでエージェントの学習過程を導き、特定の環境下で最適な選択ができるようにします。大規模言語モデルの訓練においては、報酬モデルの役割は特に重要であり、モデルが人間の好みに沿った内容をより正確に理解し、生成するのに役立ちます。
RewardBenchは大規模言語モデルにおける報酬モデルの有効性を評価するためのベンチマークランキングであり、会話、推論、安全性など複数のタスクを通じてモデルを総合的に評価します。このランキングのテストデータセットは、プロンプト、選択された応答、拒否された応答の3つ組で構成され、与えられたプロンプトに対して、選択された応答が拒否された応答よりも正しく上位にランク付けされるかどうかをテストします。
昆仑万維のSkywork-Rewardモデルは、厳選された偏順序データセットと比較的規模の小さい基底モデルを用いて開発されました。既存の報酬モデルと比較して、その偏順序データはインターネット上の公開データのみをソースとし、特定の選別戦略によって高品質な選好データセットが得られています。これらのデータは、安全性、数学、コードなど幅広いトピックを網羅しており、人間の検証を経て、データの客観性と報酬格差の顕著性が確保されています。
テストの結果、昆仑万維の報酬モデルは会話、安全性などの分野で優れた性能を示し、特に困難なサンプルに対しても、Skywork-Reward-Gemma-2-27Bモデルのみが正しい予測を行いました。この成果は、昆仑万維の世界的なAI分野における技術力と革新能力を示すとともに、AI技術の発展と応用にとって新たな可能性をもたらします。
27Bモデルアドレス:
https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27B
8Bモデルアドレス:
https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8B