Dans le domaine de l'intelligence artificielle (IA), bien que les grands modèles de langage (LLM) excellent dans le traitement du langage naturel, ils sont souvent dépassés par des tâches de raisonnement complexes. Ces tâches nécessitent généralement un raisonnement en plusieurs étapes, des connaissances spécifiques à un domaine ou l'intégration efficace d'outils externes. Pour surmonter ces limitations, les chercheurs explorent comment améliorer les capacités des LLM grâce à l'utilisation d'outils externes.

QQ_1740361147175.png

Les méthodes d'augmentation traditionnelles nécessitent souvent un ajustement fin ou un entraînement supplémentaire du modèle, ce qui limite son adaptabilité et sa flexibilité. Les frameworks existants reposent généralement sur des ensembles d'outils statiques et prédéfinis, manquant de mécanismes efficaces de sélection et de planification des outils, ce qui conduit à des erreurs lors de l'exécution des tâches, augmente le coût de calcul et donne de mauvais résultats lors de l'application à de nouveaux domaines.

Pour résoudre ce problème, l'équipe de recherche de l'Université de Stanford a présenté OctoTools, un nouveau framework visant à améliorer les capacités de raisonnement de l'IA grâce à l'utilisation dynamique et structurée d'outils externes. OctoTools est un framework modulaire, sans entraînement et extensible qui standardise la manière dont les modèles d'IA interagissent avec les outils externes. Contrairement aux frameworks précédents qui nécessitent une configuration d'outils prédéfinie, OctoTools introduit des « cartes d'outils » qui encapsulent les fonctionnalités et les métadonnées des outils, permettant aux modèles d'IA d'intégrer et d'utiliser les outils plus efficacement.

QQ_1740361091166.png

Le processus de fonctionnement d'OctoTools se divise en trois étapes clés : planification, exécution et vérification. Tout d'abord, le planificateur analyse la requête de l'utilisateur et détermine les outils nécessaires en fonction des métadonnées des cartes d'outils. Ensuite, l'exécuteur transforme les décisions de haut niveau en commandes exécutables et les exécute séquentiellement, en veillant à une gestion correcte des résultats intermédiaires. Enfin, le vérificateur évalue la cohérence de la sortie et s'assure qu'elle correspond à la requête initiale, réduisant ainsi les erreurs.

L'équipe de recherche a mené une évaluation approfondie d'OctoTools dans plusieurs domaines, notamment la vision, le raisonnement mathématique, l'analyse scientifique et les applications médicales. Les résultats montrent qu'OctoTools surpasse considérablement les frameworks d'IA existants en termes de performances, notamment dans les tâches de raisonnement mathématique, avec une amélioration de la précision de 22,5 %. Dans les applications médicales, OctoTools a permis une amélioration de la précision de 20,7 %, démontrant son efficacité dans le diagnostic assisté par IA en situation réelle.

github:https://github.com/octotools/octotools

Points clés :

🌟 OctoTools ne nécessite aucun entraînement supplémentaire et améliore considérablement la précision du raisonnement de l'IA, avec une amélioration moyenne de 9,3 %.

🔍 Ce framework prend en charge jusqu'à 16 tâches de raisonnement, notamment l'analyse visuelle, les calculs mathématiques et le raisonnement médical.

⚙️ Le système de cartes d'outils d'OctoTools simplifie l'intégration des outils, optimise le processus décisionnel et améliore l'efficacité de l'exécution.