Baichuan Intelligence, en collaboration avec l'université de Tianjin, a lancé le framework d'agent intelligent « Sibyl System », qui a obtenu la première place au classement GAIA Leader Board. GAIA est une nouvelle méthode d'évaluation proposée par Meta, Huggingface et AutoGPT en novembre 2023, axée principalement sur l'évaluation des capacités et des solutions des agents dans l'exécution de tâches complexes. Cette méthode d'évaluation a mis en lumière les lacunes des modèles existants et a fourni des pistes d'amélioration pour le développement des modèles et des agents.

Les sujets de test de GAIA se rapprochent du monde réel et exigent que l'IA possède des capacités de raisonnement, de compréhension multimodale (texte, image, audio/vidéo), de navigation sur le Web et d'utilisation d'outils. Ces sujets sont faciles à comprendre pour les humains, mais extrêmement difficiles pour les modèles. Par exemple, le taux de réussite de GPT-4 lors des tests n'est que de 15 %, tandis que les expérimentateurs humains atteignent 92 %. La résolution de ces sujets nécessite généralement de longues chaînes logiques et beaucoup de temps, impliquant plusieurs étapes et outils.

微信截图_20240724082043.png

Les caractéristiques de conception du framework « Sibyl System » incluent :

  • Remplacement de la recherche augmentée par génération par une interface utilisateur de navigateur humaine.

  • Remplacement du dialogue par des questions-réponses, utilisant des fonctions de questions-réponses sans état pour simplifier l'architecture du système.

  • Utilisation uniquement de deux outils courants : un navigateur Web et un environnement Python, réduisant ainsi la dépendance aux outils spécialisés.

  • Introduction d'un mécanisme de « jury » de System1 à System2, permettant l'autocritique et la correction par le biais de débats multi-agents, et utilisant les informations de l'espace de travail global pour améliorer la précision des réponses.

Sibyl System est un framework d'agent basé sur les grands modèles de langage, simple en structure mais puissant en fonctionnalités. Il permet de résoudre des problèmes de raisonnement complexes en utilisant un nombre limité d'outils. Grâce à l'introduction de l'espace de travail global et du mécanisme multi-agents, ainsi qu'à un canal d'acquisition d'informations universel basé sur le navigateur, il réduit la complexité du système tout en augmentant la complexité de la résolution de problèmes, permettant ainsi une transition du modèle de « pensée rapide » à la « pensée lente ». Sibyl System possède également une excellente extensibilité et une grande facilité de débogage, permettant de remplacer facilement les modules d'agent d'autres modèles et d'améliorer ainsi les capacités du modèle.

Rapport technique : https://arxiv.org/pdf/2407.10718