Eurus-2-7B-PRIME
Modèle linguistique de 7 milliards de paramètres, entraîné avec la méthode PRIME et conçu pour améliorer les capacités de raisonnement.
Produit OrdinaireProgrammationApprentissage par renforcementCapacité de raisonnement
PRIME-RL/Eurus-2-7B-PRIME est un modèle linguistique de 7 milliards de paramètres entraîné avec la méthode PRIME. Il vise à améliorer les capacités de raisonnement des modèles linguistiques grâce à l'apprentissage par renforcement en ligne. L'entraînement commence avec Eurus-2-7B-SFT et utilise l'ensemble de données Eurus-2-RL-Data pour l'apprentissage par renforcement. La méthode PRIME, par le biais d'un mécanisme de récompense implicite, encourage le modèle à se concentrer sur le processus de raisonnement pendant la génération, et non seulement sur le résultat. Ce modèle excelle dans plusieurs tests de référence de raisonnement, affichant une amélioration moyenne de 16,7 % par rapport à sa version SFT. Ses principaux avantages incluent une amélioration efficace des capacités de raisonnement, des besoins réduits en données et en ressources de modèle, ainsi que d'excellentes performances dans les tâches mathématiques et de programmation. Ce modèle convient aux scénarios nécessitant des capacités de raisonnement complexes, tels que la résolution de problèmes de programmation et de mathématiques.
Eurus-2-7B-PRIME Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44