ReFT
ReFT : une méthode simple et efficace pour améliorer les capacités de raisonnement des grands modèles de langage (LLM)
Produit OrdinaireProductivitéIntelligence artificielleRaisonnement
ReFT est une méthode simple et efficace pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Elle préchauffe d'abord le modèle via un réglage fin supervisé (SFT), puis l'affine davantage grâce à un apprentissage par renforcement en ligne, plus précisément en utilisant l'algorithme PPO décrit dans cet article. ReFT surpasse significativement le SFT en échantillonnant automatiquement un grand nombre de chemins de raisonnement pour une question donnée et en dérivant naturellement des récompenses à partir de la réponse correcte. Les performances de ReFT peuvent être encore améliorées en combinant des stratégies d'inférence au moment de l'exécution, telles que le vote majoritaire et le reclassement. Il est important de noter que ReFT s'améliore en apprenant sur les mêmes problèmes d'entraînement que le SFT, sans nécessiter de problèmes d'entraînement supplémentaires ou améliorés. Cela démontre une meilleure capacité de généralisation de ReFT.
ReFT Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44