Des chercheurs de Microsoft ont récemment publié une étude novatrice intitulée SpreadsheetLLM, visant à résoudre les difficultés rencontrées par les grands modèles linguistiques (LLM) lors de l'analyse de feuilles de calcul.
Selon un article publié le 12 juillet sur Arxiv, SpreadsheetLLM utilise un cadre de codage permettant aux LLM de « comprendre » le contenu des feuilles de calcul. Cette recherche devrait améliorer considérablement l'efficacité de la gestion et de l'analyse des données des feuilles de calcul, et permettre aux utilisateurs de poser des questions à l'IA en langage naturel, sans avoir besoin de maîtriser des formules et des opérations complexes.
Adresse de l'article : https://arxiv.org/html/2407.09025v1#abstract
La compréhension des feuilles de calcul par les LLM pose plusieurs défis. Premièrement, la taille des feuilles de calcul peut être énorme, dépassant la limite de caractères que les LLM peuvent traiter simultanément. Deuxièmement, les feuilles de calcul utilisent une disposition et une structure bidimensionnelles, tandis que les LLM sont plus à l'aise avec des entrées linéaires et séquentielles. Enfin, les LLM ne sont généralement pas entraînés spécifiquement pour interpréter les adresses de cellules et les formats spécifiques des feuilles de calcul.
La technologie SpreadsheetLLM de Microsoft se compose de deux parties principales. La première partie est SheetCompressor, qui réduit la complexité des feuilles de calcul pour les rendre plus faciles à comprendre par les LLM. SheetCompressor comprend trois modules : des points d'ancrage structurels, une méthode pour réduire le nombre de jetons et une amélioration de l'efficacité grâce au regroupement de cellules similaires. Grâce à ces modules, l'équipe Microsoft a réduit de 96 % le nombre de jetons nécessaires au codage et a obtenu une amélioration de 12,3 %. La deuxième partie est Chain of Spreadsheet, qui apprend aux LLM comment trouver les informations pertinentes dans la feuille de calcul compressée et générer une réponse.
Le succès de cette technologie améliorera considérablement les fonctionnalités de Microsoft Copilot dans Excel, lui permettant de gérer des tâches d'analyse de données plus complexes. Cependant, cette méthode est encore confrontée à des problèmes de précision des données générées et de forte consommation de ressources de calcul. Les travaux futurs de l'équipe de recherche comprendront le codage de la couleur d'arrière-plan des cellules et une meilleure compréhension des relations entre les contenus des cellules.
Points clés :
📊 **Défis posés par les feuilles de calcul aux grands modèles linguistiques (LLM)** : les feuilles de calcul ont une structure complexe et une disposition bidimensionnelle, dépassant la portée des entrées linéaires généralement traitées par les LLM.
🔍 **Analyse de la technologie SpreadsheetLLM** : Microsoft a proposé deux technologies principales, SheetCompressor et Chain of Spreadsheet, améliorant considérablement la capacité des LLM à comprendre les feuilles de calcul.
🛠️ **Impact sur les outils d'IA de Microsoft** : SpreadsheetLLM devrait améliorer les capacités d'application de Microsoft Copilot dans Excel, mais il reste confronté à des problèmes de précision des données générées et de consommation de ressources de calcul.