Avec le développement de l'intelligence artificielle, les systèmes multi-agents deviennent de plus en plus performants dans le traitement de tâches complexes dans divers domaines. Ces systèmes sont composés de plusieurs agents spécialisés qui coopèrent en utilisant leurs compétences respectives pour atteindre un objectif commun. Cette collaboration s'avère particulièrement efficace dans des domaines tels que le raisonnement complexe, la programmation, la découverte de médicaments et la garantie de sécurité, car les interactions structurées entre les agents améliorent non seulement l'efficacité de la résolution de problèmes, mais permettent également une correction mutuelle, améliorant ainsi les résultats individuels. Des études montrent que cette approche collaborative surpasse souvent les performances d'un agent unique, notamment pour les tâches nécessitant un raisonnement rigoureux ou une vérification factuelle.

QQ_1739439911579.png

Cependant, l'optimisation des systèmes multi-agents reste un défi majeur. Un problème clé réside dans l'obtention de signaux d'entraînement appropriés pour chaque agent. Bien qu'un retour de récompense au niveau de la tâche soit disponible, l'attribution du mérite entre les agents reste ambiguë. La complexité et le manque de structure du processus de raisonnement des modèles linguistiques rendent encore plus difficile l'attribution du succès ou de l'échec aux décisions et étapes de raisonnement spécifiques de chaque agent, un problème similaire à celui de l'attribution du mérite multi-agent dans l'apprentissage par renforcement.

Pour résoudre ce problème, des chercheurs de l'Université de Stanford ont présenté le framework SIRIUS, un framework d'optimisation multi-agent auto-améliorant utilisant l'apprentissage guidé par le raisonnement. SIRIUS construit une bibliothèque d'expériences en conservant les traces de raisonnement réussies, fournissant ainsi un ensemble d'entraînement de haute qualité. Parallèlement, les tentatives infructueuses sont enrichies pour améliorer le jeu de données. Les résultats montrent que SIRIUS a amélioré les performances de 2,86 % à 21,88 % dans les domaines du raisonnement et de la question-réponse biomédicale, et a amélioré la capacité de négociation des agents dans des environnements compétitifs. Les agents apprennent des interactions réussies et améliorent itérativement leurs stratégies de coopération, réalisant ainsi une auto-optimisation sans supervision directe.

Le framework SIRIUS inclut également un processus d'ajustement fin itératif. Les agents interagissent dans un environnement de langage naturel, génèrent des réponses, évaluent ces réponses, améliorent les sorties de mauvaise qualité et mettent à jour leurs stratégies par apprentissage supervisé. Grâce à une optimisation continue des réponses, SIRIUS améliore les capacités de raisonnement et de prise de décision dans les systèmes multi-agents basés sur le langage, conduisant à des interactions plus efficaces et cohérentes au fil du temps.

Dans les expériences, SIRIUS a été comparé à plusieurs modèles de référence, notamment des agents uniques, STaR, CoMM et TextGrad. Les résultats montrent que SIRIUS excelle dans la résolution de problèmes, la décomposition des tâches et la coopération entre agents. Une étude d'ablation a révélé que les rôles d'agents spécialisés, l'optimisation multi-agents et l'augmentation de l'expérience sont des facteurs clés pour l'amélioration des performances. SIRIUS a également démontré d'excellentes performances dans les environnements acteur-critique et compétitifs, surpassant d'autres méthodes dans des tâches telles que PubMedQA et les jeux d'échange de ressources.

En résumé, SIRIUS est un framework visant à optimiser les systèmes multi-agents en apprenant des interactions réussies et en améliorant les cas d'échec. Il construit une bibliothèque d'expériences contenant des étapes de raisonnement de haute qualité, qui sert d'ensemble d'entraînement pour l'optimisation du système, tout en enrichissant le contenu de la bibliothèque en augmentant les traces infructueuses. Ce framework améliore considérablement les capacités de raisonnement, de question-réponse biomédicale et de négociation des agents, favorisant l'auto-amélioration continue de la coopération multi-agents.

Article : https://arxiv.org/pdf/2502.04780

Points clés :

🌟 Le framework SIRIUS optimise les performances des systèmes multi-agents grâce à l'auto-amélioration et à l'apprentissage des expériences réussies.

📈 Des études montrent que SIRIUS améliore les performances de 2,86 % à 21,88 % dans des tâches telles que le raisonnement et la question-réponse biomédicale.

🤝 L'interaction entre les multi-agents et la construction d'une bibliothèque d'expériences sont au cœur du processus d'optimisation de SIRIUS, aidant les agents à coopérer plus efficacement dans des tâches complexes.