Récemment, des scientifiques de Meta, de l'Université de Californie à Berkeley et de l'Université de New York ont collaboré au développement d'une nouvelle technologie appelée « Optimisation des préférences de pensée » (Thought Preference Optimization, ou TPO). Cette technologie vise à améliorer les performances des grands modèles linguistiques (LLM) dans l'exécution de diverses tâches, en encourageant l'IA à réfléchir plus attentivement à ses réponses avant d'y répondre.

image.png

Les chercheurs affirment que cette « réflexion » devrait avoir une large utilité. Par exemple, dans les tâches d'écriture créative, l'IA pourrait utiliser son processus de pensée interne pour planifier la structure globale et le développement des personnages. Cette approche diffère significativement des techniques d'invite « chaîne de pensée » (Chain-of-Thought, CoT) précédentes, principalement utilisées pour les tâches mathématiques et logiques. La TPO a une portée d'application beaucoup plus large. Les chercheurs mentionnent le nouveau modèle o1 d'OpenAI, suggérant que le processus de réflexion est également bénéfique pour des tâches plus vastes.

Alors, comment fonctionne la TPO ? Tout d'abord, le modèle génère une série d'étapes de réflexion avant de répondre à une question. Ensuite, il crée plusieurs sorties, puis un modèle d'évaluation évalue uniquement la réponse finale, et non les étapes de réflexion elles-mêmes. Enfin, grâce à l'optimisation des préférences basées sur ces évaluations, le modèle est entraîné. Les chercheurs espèrent que l'amélioration de la qualité des réponses, obtenue par l'amélioration du processus de pensée, permettra au modèle d'acquérir des capacités de raisonnement plus efficaces par apprentissage implicite.

Lors des tests, le modèle Llama38B utilisant la TPO a surpassé les versions n'utilisant pas de raisonnement explicite dans les tests de référence de suivi d'instructions générales. Dans les tests de référence AlpacaEval et Arena-Hard, le taux de réussite de la TPO a atteint respectivement 52,5 % et 37,3 %. Plus excitant encore, la TPO a également progressé dans certains domaines ne nécessitant généralement pas de réflexion explicite, tels que le bon sens, le marketing et la santé.

Cependant, l'équipe de recherche souligne que la configuration actuelle ne convient pas aux problèmes mathématiques, car dans ces tâches, la TPO a en fait de moins bonnes performances que le modèle de base. Cela suggère que des approches différentes pourraient être nécessaires pour les tâches hautement spécialisées. Les recherches futures pourraient se concentrer sur le contrôle de la longueur du processus de pensée et sur l'impact de la réflexion sur les modèles plus importants.

Points clés :

🌟 L'équipe de recherche a introduit l'« Optimisation des préférences de pensée » (TPO), visant à améliorer la capacité de réflexion de l'IA dans l'exécution des tâches.

🧠 La TPO permet au modèle de générer des étapes de réflexion avant de répondre, en utilisant un modèle d'évaluation pour optimiser la qualité des réponses.

📈 Les tests montrent que la TPO excelle dans des domaines tels que le bon sens et le marketing, mais qu'elle est moins performante dans les tâches mathématiques.