Kunlun Wanwei Technologies Co., Ltd. a récemment annoncé que ses deux nouveaux modèles de récompense, Skywork-Reward-Gemma-2-27B et Skywork-Reward-Llama-3.1-8B, ont obtenu des résultats exceptionnels sur RewardBench, une référence internationale d'évaluation des modèles de récompense. Le modèle Skywork-Reward-Gemma-2-27B a même remporté la première place, recevant ainsi la haute reconnaissance officielle de RewardBench.

Les modèles de récompense jouent un rôle central dans l'apprentissage par renforcement. Ils évaluent les performances d'un agent dans différents états et fournissent des signaux de récompense pour guider son apprentissage, lui permettant de faire les meilleurs choix dans un environnement spécifique. Dans l'entraînement des grands modèles de langage, les modèles de récompense sont particulièrement importants, car ils aident le modèle à mieux comprendre et à générer du contenu conforme aux préférences humaines.

微信截图_20240913083436.png

RewardBench est un classement de référence spécialement conçu pour évaluer l'efficacité des modèles de récompense dans les grands modèles de langage. Il effectue une évaluation globale des modèles à travers plusieurs tâches, notamment dans les domaines de la conversation, du raisonnement et de la sécurité. Le jeu de données de test de ce classement est composé de triplets : une invite, une réponse sélectionnée et une réponse rejetée. Il permet de tester si le modèle de récompense peut correctement classer la réponse sélectionnée avant la réponse rejetée, étant donné une invite.

Les modèles Skywork-Reward de Kunlun Wanwei ont été développés à partir d'un ensemble de données de préordre soigneusement sélectionné et de modèles de base relativement petits. Contrairement aux modèles de récompense existants, leurs données de préordre proviennent uniquement de données publiques en ligne, obtenues grâce à une stratégie de sélection spécifique pour garantir un ensemble de données de haute qualité. Ces données couvrent un large éventail de sujets, notamment la sécurité, les mathématiques et le code, et ont été vérifiées manuellement pour garantir l'objectivité des données et la significativité de l'écart de récompense.

Les tests ont montré que les modèles de récompense de Kunlun Wanwei ont obtenu d'excellents résultats dans les domaines de la conversation et de la sécurité. Notamment, seul le modèle Skywork-Reward-Gemma-2-27B a fourni des prédictions correctes face à des échantillons difficiles. Cette réussite témoigne de la puissance technologique et de la capacité d'innovation de Kunlun Wanwei dans le domaine mondial de l'IA, et ouvre de nouvelles perspectives pour le développement et les applications des technologies d'IA.

Adresse du modèle 27B :

https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27B

Adresse du modèle 8B :

https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8B