Recentemente, grandes modelos de linguagem (LLMs) com janelas de contexto extra longas se tornaram um tópico de discussão popular. Esses modelos podem processar centenas de milhares, ou mesmo milhões, de tokens em uma única solicitação, abrindo novas possibilidades para os desenvolvedores. No entanto, até que ponto esses LLMs de contexto longo realmente compreendem e utilizam as grandes quantidades de informações que recebem?
Para abordar essa questão, pesquisadores do Google DeepMind lançaram um novo benchmark chamado Michelangelo, projetado para avaliar a capacidade de raciocínio em contextos longos.
Os resultados da pesquisa indicam que, embora os modelos de ponta atuais tenham feito progressos na extração de informações de grandes quantidades de dados de contexto, eles ainda enfrentam dificuldades em tarefas que exigem raciocínio e compreensão da estrutura de dados.
Com o surgimento de LLMs com janelas de contexto extra longas, os pesquisadores começaram a perceber a necessidade de novos benchmarks para avaliar as capacidades desses modelos. As avaliações existentes se concentram principalmente em tarefas de recuperação de informações, como avaliações do tipo "encontrar uma agulha em um palheiro", ou seja, encontrar informações específicas em um grande contexto. No entanto, a simples recuperação não é equivalente à compreensão do contexto geral pelo modelo.
Para resolver esses problemas, o Michelangelo propõe um novo método de avaliação, definindo tarefas complexas que exigem que o modelo realize raciocínio e síntese mais profundos ao processar textos longos. Por exemplo, a estrutura de avaliação inclui várias tarefas relacionadas à programação e à linguagem natural, que testam não apenas a capacidade de memória do modelo, mas também sua profundidade de compreensão e processamento de informações.
Nas tarefas de avaliação do Michelangelo, o modelo precisa resolver três tarefas básicas de síntese de documentos longos: "Lista Latente", "Resolução de Referência Multi-turno" e vários cenários de aplicação. Essas tarefas ajudam a avaliar o desempenho do modelo em documentos longos e a revelar suas deficiências em raciocínio e síntese.
A primeira é "Lista Latente", onde o modelo precisa processar uma longa sequência de operações em uma lista Python, filtrando instruções irrelevantes ou redundantes para determinar o estado final da lista.
A segunda é "Resolução de Referência Multi-turno", onde o modelo precisa entender a estrutura de uma conversa longa e resolver problemas de referência.
A terceira é "Não sei", onde o modelo precisa determinar se o contexto contém a resposta a perguntas de múltipla escolha e responder com precisão "Não sei".
Os pesquisadores avaliaram dez LLMs de ponta no Michelangelo (incluindo diferentes versões do Gemini, GPT-4 e Claude), testando os modelos em contextos de até 1 milhão de tokens. O modelo Gemini teve o melhor desempenho no MRCR, o modelo GPT se destacou na Lista Latente e o Claude3.5Sonnet obteve a pontuação mais alta no IDK.
Os pesquisadores descobriram que, embora esses modelos apresentem desempenhos variados no processamento de contextos longos, seu desempenho geral diminuiu significativamente em tarefas de raciocínio mais complexas.
Isso significa que, mesmo com janelas de contexto extra longas, os LLMs atuais ainda precisam melhorar sua capacidade de raciocínio.
Os pesquisadores planejam expandir continuamente o projeto de avaliação do Michelangelo e esperam disponibilizá-lo publicamente para que outros pesquisadores testem seus modelos.
Link para o artigo: https://arxiv.org/abs/2409.12640
Destaques:
🔍 O novo benchmark Michelangelo para LLMs de contexto longo visa avaliar a capacidade de raciocínio dos modelos.
🧩 A pesquisa mostra uma queda significativa no desempenho dos modelos existentes em tarefas de raciocínio complexas.
📈 Os pesquisadores planejam expandir o projeto de avaliação para promover pesquisas adicionais sobre a capacidade de raciocínio dos modelos.