Pesquisadores da Microsoft recentemente publicaram uma pesquisa inovadora chamada SpreadsheetLLM, projetada para resolver os desafios enfrentados por modelos de linguagem grandes (LLMs) na análise de planilhas.

De acordo com um artigo publicado em 12 de julho no Arxiv, o SpreadsheetLLM usa uma estrutura de codificação que permite que o LLM "entenda" o conteúdo de uma planilha. Esta pesquisa promete melhorar significativamente a eficiência da gestão e análise de dados em planilhas, permitindo que os usuários façam perguntas em linguagem natural à IA, sem a necessidade de dominar fórmulas e operações complexas.

image.png

Endereço do artigo: https://arxiv.org/html/2407.09025v1#abstract

A compreensão de planilhas por LLMs apresenta vários desafios. Primeiro, o tamanho das planilhas pode ser enorme, excedendo o limite de caracteres que um LLM pode processar de uma só vez. Segundo, as planilhas usam um layout e estrutura bidimensionais, enquanto os LLMs são melhores em lidar com entradas lineares e sequenciais. Por fim, os LLMs geralmente não são treinados especificamente para interpretar endereços de células e formatos específicos de planilhas.

A tecnologia SpreadsheetLLM da Microsoft consiste em duas partes principais. A primeira parte é o SheetCompressor, que reduz a complexidade da planilha, tornando-a mais fácil de entender para o LLM. O SheetCompressor inclui três módulos: âncoras estruturais, métodos para reduzir o número de tokens e aumento de eficiência por meio da agregação de células semelhantes. Usando esses módulos, a equipe da Microsoft reduziu o número de tokens necessários para codificação em 96% e obteve uma melhoria de 12,3%. A segunda parte é a Chain of Spreadsheet, que ensina o LLM a encontrar informações relevantes na planilha comprimida e gerar respostas.

image.png

O sucesso desta tecnologia melhorará significativamente os recursos do Microsoft Copilot no Excel, permitindo-lhe lidar com tarefas de análise de dados mais complexas. No entanto, este método ainda enfrenta problemas de precisão na geração de dados e alto consumo de recursos computacionais. Os planos futuros da equipe de pesquisa incluem a codificação da cor de fundo das células e uma compreensão mais profunda das relações entre os conteúdos das células.

Destaques:

📊 **Desafios das planilhas para modelos de linguagem grandes (LLMs):** As planilhas têm uma estrutura complexa e um layout bidimensional, excedendo o escopo de entrada linear normalmente processado por LLMs.   

🔍 **Análise da tecnologia SpreadsheetLLM:** A Microsoft propôs duas tecnologias principais, SheetCompressor e Chain of Spreadsheet, que melhoraram significativamente a capacidade de compreensão de planilhas pelos LLMs.   

🛠️ **Impacto nas ferramentas de IA da Microsoft:** O SpreadsheetLLM deve melhorar a capacidade de aplicação do Microsoft Copilot no Excel, mas ainda enfrenta desafios relacionados à precisão na geração de dados e ao consumo de recursos computacionais.