Des chercheurs de Meta FAIR, de l'Université de Californie à Berkeley et de l'Université de New York ont conjointement développé une nouvelle technique appelée Optimisation des Préférences de Pensée (TPO). Cette innovation vise à améliorer la qualité des réponses des grands modèles linguistiques (LLM) lorsqu'ils traitent des instructions. Contrairement aux modèles traditionnels qui se concentrent uniquement sur la réponse finale, le TPO permet au modèle de réfléchir et de s'auto-évaluer avant de fournir une réponse finale, générant ainsi des réponses plus précises et cohérentes.

image.png

Au cœur de la technologie TPO se trouve une méthode de raisonnement par chaîne de pensée (CoT) améliorée. Cette méthode encourage le modèle, pendant l'entraînement, à « réfléchir avant de répondre », l'aidant à construire un processus de pensée interne plus organisé avant de fournir la réponse finale. Les invites CoT traditionnelles peuvent parfois entraîner une baisse de précision et leur entraînement est assez difficile en raison d'un manque d'étapes de réflexion claires. Le TPO surmonte ces défis en permettant au modèle d'optimiser et de simplifier son processus de pensée sans exposer les étapes intermédiaires à l'utilisateur.

Pendant l'entraînement du TPO, le grand modèle linguistique est d'abord invité à générer plusieurs pistes de réflexion, puis à élaborer une réponse finale. Ensuite, ces résultats sont évalués par un modèle « juge » afin de sélectionner les meilleures et les pires réponses. Ces résultats d'évaluation sont utilisés comme paires de « choix » et de « refus » pour l'optimisation directe des préférences (DPO), afin d'améliorer continuellement la qualité des réponses du modèle.

En ajustant les invites d'entraînement, le TPO encourage le modèle à réfléchir intérieurement avant de répondre. Ce processus guide le modèle pour optimiser sa réponse afin qu'elle soit plus claire et pertinente. Enfin, l'évaluation est effectuée par un modèle juge basé sur un LLM qui ne note que la réponse finale, indépendamment des étapes de réflexion cachées, aidant ainsi le modèle à améliorer la qualité de ses réponses. Le TPO utilise également l'optimisation directe des préférences pour créer des paires de réponses préférées et rejetées contenant des réflexions cachées, affinant ainsi davantage le processus interne du modèle après plusieurs cycles d'entraînement.

Lors de tests de référence sur AlpacaEval et Arena-Hard, la méthode TPO a surpassé les lignes de base de réponse traditionnelles et a été plus performante que le modèle Llama-3-8B-Instruct avec « invite de réflexion ». L'entraînement itératif de cette méthode a optimisé la capacité de génération de réflexion, la faisant finalement surpasser plusieurs modèles de référence. Il est à noter que le TPO ne s'applique pas seulement aux tâches logiques et mathématiques, mais excelle également dans les tâches de suivi d'instructions dans des domaines créatifs tels que le marketing et la santé.

Karan Verma, expert en IA et en robotique, a partagé sur la plateforme X son enthousiasme pour le concept de « LLM réflexif », exprimant son optimisme quant au potentiel de cette innovation dans les applications médicales, pour offrir de meilleurs résultats thérapeutiques aux patients.

Ce processus de pensée interne structuré permet au modèle de traiter plus efficacement les instructions complexes, étendant ainsi son application aux domaines nécessitant un raisonnement multi-niveaux et une compréhension approfondie, sans avoir besoin de données de réflexion spécifiques fournies par l'homme. Cette recherche montre que le TPO pourrait rendre les grands modèles linguistiques plus flexibles et efficaces dans divers contextes, adaptés aux domaines exigeant une grande flexibilité et une profondeur de génération de réponses.