Récemment, Kunlun Wanwei, en collaboration avec l'Université technologique de Nanyang à Singapour, a développé avec succès un algorithme nommé Q*, capable d'améliorer significativement les capacités de raisonnement des modèles linguistiques existants. Q* permet à de petits modèles, sur différents ensembles de données, d'atteindre des capacités de raisonnement comparables à celles de modèles dont la taille des paramètres est des dizaines, voire des centaines de fois supérieure. Cela entraîne une amélioration significative des performances du modèle, tout en réduisant considérablement les besoins en ressources de calcul, ouvrant ainsi de nouvelles perspectives pour une application généralisée de l'intelligence artificielle et inaugurant une nouvelle ère d'intelligence efficace.
Dans l'article de recherche intitulé « Q* : Améliorer le raisonnement en plusieurs étapes pour les LLM grâce à une planification délibérée » (Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning), les chercheurs présentent l'architecture Q*. Ce cadre décompose la trajectoire de raisonnement des grands modèles linguistiques en plusieurs états et utilise l'algorithme de recherche A* pour une planification globale, améliorant ainsi les performances des modèles open source sur les tâches de raisonnement.
Plus précisément, en définissant les fonctions de coût de chemin (Path Cost) et de récompense cumulée (Accumulated Reward), une prise en compte globale des gains passés et des gains futurs escomptés est réalisée. Dans les expériences, Q* a permis une amélioration significative de la précision pour différents modèles sur divers ensembles de données, surpassant certains modèles renommés.
Actuellement, la recherche sur Q* en est à un stade préliminaire et des améliorations sont encore possibles. À l'avenir, Kunlun Wanwei poursuivra ses recherches pour améliorer les capacités de raisonnement des modèles open source nationaux et offrir de nouvelles possibilités au développement des technologies d'intelligence artificielle.
Lien de l'article :
https://arxiv.org/abs/2406.14283