Les équipes de recherche de Microsoft ont récemment dévoilé une technologie d'intelligence artificielle appelée « Large Action Model » (LAM), marquant une nouvelle étape dans le développement de l'IA. Contrairement aux modèles linguistiques traditionnels comme GPT-4, le LAM peut interagir de manière autonome avec les programmes Windows. Cela signifie que l'IA ne se limite pas à la conversation ou aux suggestions, mais peut exécuter des tâches concrètes.

image.png

L'avantage du LAM réside dans sa capacité à comprendre divers types d'entrées utilisateur, notamment le texte, la voix et les images, qu'il transforme ensuite en plans d'action détaillés. Le LAM ne se contente pas d'élaborer des plans, il adapte également sa stratégie en fonction des circonstances. La construction du LAM se déroule en quatre étapes : premièrement, le modèle apprend à décomposer les tâches en étapes logiques ; ensuite, il apprend à traduire ces plans en actions concrètes grâce à des systèmes d'IA plus avancés (comme GPT-4) ; troisièmement, le LAM explore de manière autonome de nouvelles solutions et résout même des problèmes que d'autres systèmes d'IA ne peuvent pas gérer ; enfin, il est affiné par un système de récompenses.

Lors des tests, une version du modèle LAM basée sur Mistral-7B a été évaluée dans un environnement Word. Les résultats montrent un taux de réussite de 71 %, contre 63 % pour GPT-4 sans information visuelle.

De plus, le LAM se distingue par sa vitesse d'exécution, chaque tâche ne prenant que 30 secondes, contre 86 secondes pour GPT-4. Bien que GPT-4 atteigne un taux de réussite de 75,5 % avec des informations visuelles, le LAM présente globalement un avantage significatif en termes de vitesse et d'efficacité.

Pour créer les données d'entraînement, l'équipe de recherche a initialement collecté 29 000 exemples de tâches et de plans provenant de documents Microsoft, d'articles wikiHow et de recherches Bing. Ensuite, ils ont utilisé GPT-4 pour transformer des tâches simples en tâches complexes, augmentant ainsi le jeu de données à 76 000 exemples (soit une augmentation de 150 %). Finalement, environ 2 000 séquences d'actions réussies ont été intégrées à l'ensemble de données d'entraînement final.

image.png

Bien que le LAM ait démontré son potentiel dans le développement de l'IA, l'équipe de recherche est confrontée à des défis, tels que les erreurs potentielles des actions de l'IA, les questions de réglementation et les limites techniques liées à l'adaptation et à l'extension à différentes applications. Néanmoins, les chercheurs estiment que le LAM représente un tournant majeur dans le développement de l'IA, annonçant une nouvelle génération d'assistants capables d'aider les humains de manière plus proactive dans l'exécution de tâches concrètes.

Points clés :

🌟 Le LAM peut exécuter de manière autonome des programmes Windows, dépassant les limites des IA traditionnelles qui se limitent à la conversation.

⏱️ Lors des tests sous Word, le LAM a atteint un taux de réussite de 71 %, supérieur aux 63 % de GPT-4, et avec une vitesse d'exécution plus rapide.

📈 L'équipe de recherche a augmenté le nombre de paires tâche-plan à 76 000 grâce à une stratégie d'augmentation des données, améliorant ainsi les performances du modèle.