Skywork-Reward-Gemma-2-27Bは、Gemma-2-27Bアーキテクチャに基づく高度な報酬モデルであり、複雑な状況における選好処理のために設計されています。このモデルは、数学、プログラミング、セキュリティなど複数の分野から収集された8万件の高品質な選好対データを用いてトレーニングされています。2024年9月のRewardBenchランキングで1位を獲得し、選好処理における優れた能力を実証しています。