Skywork-Reward-Gemma-2-27B est un modèle de récompense avancé basé sur l'architecture Gemma-2-27B, conçu pour gérer les préférences dans des scénarios complexes. Ce modèle a été entraîné sur 80 000 paires de préférences de haute qualité provenant de divers domaines tels que les mathématiques, la programmation et la sécurité. Skywork-Reward-Gemma-2-27B a occupé la première place du classement RewardBench en septembre 2024, démontrant ainsi ses capacités exceptionnelles en matière de traitement des préférences.