Récemment, l'équipe de recherche de Meta AI, en collaboration avec des chercheurs de l'Université de Californie à Berkeley et de l'Université de New York, a présenté une méthode appelée Optimisation des Préférences de Pensée (Thought Preference Optimization, TPO), visant à améliorer la qualité des réponses des grands modèles linguistiques (LLM) affinés par instructions.
Contrairement aux modèles traditionnels qui se concentrent uniquement sur la réponse finale, la méthode TPO permet au modèle de réfléchir intérieurement avant de générer une réponse, produisant ainsi des réponses plus précises et cohérentes.
Cette nouvelle technologie combine une version améliorée de la méthode de raisonnement par chaîne de pensée (Chain-of-Thought, CoT). Pendant l'entraînement, cette méthode encourage le modèle à « réfléchir » avant de répondre, l'aidant à construire un processus de pensée interne plus systématique. Les invites CoT directes précédentes réduisaient parfois la précision et rendaient l'entraînement difficile en raison d'un manque d'étapes de pensée claires. Le TPO surmonte ces limitations en permettant au modèle d'optimiser et de simplifier son processus de pensée, sans afficher les étapes de pensée intermédiaires à l'utilisateur.
Dans le processus TPO, le grand modèle linguistique est d'abord invité à générer plusieurs processus de pensée. Ensuite, avant de former la réponse finale, ces sorties sont échantillonnées et évaluées. Un modèle d'évaluation attribue ensuite un score aux sorties, identifiant les meilleures et les pires réponses. En utilisant ces sorties comme paires de préférences et de rejets pour l'optimisation directe des préférences (Direct Preference Optimization, DPO), cette méthode d'entraînement itérative améliore la capacité du modèle à générer des réponses plus pertinentes et de meilleure qualité, améliorant ainsi les résultats globaux.
Dans cette méthode, les invites d'entraînement sont ajustées pour encourager le modèle à réfléchir intérieurement avant de répondre. La réponse finale évaluée est notée par un modèle d'évaluation basé sur un LLM, permettant au modèle d'améliorer la qualité uniquement en fonction de l'efficacité de la réponse, sans tenir compte des étapes de pensée implicites. De plus, le TPO utilise l'optimisation directe des préférences pour créer des paires de réponses préférées et rejetées contenant des pensées implicites, affinant davantage le processus interne du modèle à travers plusieurs cycles d'entraînement.
Les résultats de la recherche montrent que la méthode TPO excelle dans plusieurs tests de référence, surpassant de nombreux modèles existants. Cette méthode est non seulement applicable aux tâches logiques et mathématiques, mais elle a également démontré son potentiel dans des domaines créatifs tels que le marketing et le suivi d'instructions dans le domaine de la santé.
Article : https://arxiv.org/pdf/2410.10630
Points clés :
🧠 La technologie TPO améliore la capacité des grands modèles linguistiques à réfléchir avant de générer une réponse, garantissant des réponses plus précises.
📈 Grâce à un raisonnement par chaîne de pensée amélioré, le modèle peut optimiser et simplifier son processus de pensée interne, améliorant ainsi la qualité des réponses.
💡 Le TPO est applicable à divers domaines, non seulement aux tâches logiques et mathématiques, mais aussi aux domaines créatifs et de la santé.