Uma equipe da Universidade de Pequim, liderada por Zhang Muhan, propôs uma nova estrutura – Long Input Fine-Tuning (LIFT) – que permite que modelos com janelas de contexto curtas processem textos longos, incorporando o treinamento de textos longos nos parâmetros do modelo. Este método revoluciona a abordagem tradicional de processamento de textos longos, abandonando a ênfase na expansão ilimitada da janela de contexto e internalizando o conhecimento do texto longo nos parâmetros do modelo, semelhante ao processo de conversão da memória de trabalho em memória de longo prazo em humanos.

image.png

Atualmente, o processamento de textos longos por grandes modelos enfrenta dois desafios principais:

A complexidade quadrática do mecanismo de atenção tradicional leva a um enorme custo computacional e de memória no processamento de textos longos. Os modelos têm dificuldade em compreender as relações de longo alcance dispersas em textos longos.

Soluções existentes, como RAG e adaptação de contexto longo, têm suas limitações:

O RAG depende da recuperação precisa, podendo introduzir ruído e causar alucinações. A adaptação de contexto longo tem alta complexidade de inferência e a janela de contexto ainda é limitada.

Inovações tecnológicas do LIFT

A estrutura LIFT inclui três componentes principais:

Treinamento de entrada longa dinâmico e eficiente

Através da modelagem de linguagem segmentada, o texto longo é dividido em segmentos sobrepostos. Isso evita o aumento da complexidade de inferência e a perda de dependências de longo alcance causadas por contextos muito longos. A complexidade do treinamento cresce linearmente com o comprimento do texto longo.

image.png

Adaptador de memória com portão para equilibrar a capacidade do modelo

Uma arquitetura específica de Adaptador de Memória com Portão (Gated Memory Adapter) foi projetada para equilibrar dinamicamente a capacidade de aprendizado em contexto (In-Context Learning) do modelo original e a compreensão da memória de entrada longa. Permite que o modelo ajuste automaticamente a quantidade de conteúdo de memória LIFT a ser usado, de acordo com a consulta.

Treinamento de tarefas auxiliares

Utilizando um LLM pré-treinado, tarefas auxiliares do tipo pergunta e resposta são geradas automaticamente com base em textos longos. Isso compensa as possíveis perdas de capacidade durante o treinamento segmentado e ajuda o modelo a aprender a usar as informações de textos longos para responder perguntas.

image.png

Resultados experimentais

O LIFT obteve melhorias significativas em vários benchmarks de contexto longo:

Respostas a perguntas de longa dependência LooGLE: a precisão do Llama38B aumentou de 15,44% para 29,97%. Respostas a perguntas de curta dependência LooGLE: a precisão do Gemma29B aumentou de 37,37% para 50,33%. LongBench várias subtarefas: o Llama3 com LIFT apresentou melhorias significativas em 4 de 5 subtarefas.

Experimentos de ablação mostraram que a arquitetura Gated Memory, em comparação com o modelo original ajustado com PiSSA, melhorou a pontuação GPT-4 em 5,48% no conjunto de dados LooGLE ShortQA.

Limitações e direções futuras de desenvolvimento

Apesar dos resultados significativos do LIFT, ainda existem algumas limitações:

O desempenho ainda não é ideal para tarefas de "busca na agulha no palheiro" que exigem extração precisa de informações. A capacidade do modelo de extrair conhecimento parametrizado obtido pelo LIFT precisa ser otimizada. O design da tarefa auxiliar depende fortemente da tarefa de teste a jusante, tendo uma generalização limitada. Como equilibrar melhor a memória e as capacidades originais ainda é um foco de pesquisa.

A equipe de pesquisa incentiva a comunidade a explorar em conjunto o potencial do LIFT com dados de treinamento mais amplos, modelos mais ricos, designs de tarefas auxiliares mais avançados e suporte de recursos computacionais mais robustos.

Conclusão

O LIFT oferece um novo paradigma para o processamento de textos longos, convertendo o conhecimento do contexto em conhecimento parametrizado. Essa abordagem é semelhante ao processo de conversão da memória de curto prazo em memória de longo prazo em humanos. Embora ainda haja distância para resolver completamente o desafio do contexto longo, o LIFT abre uma direção de pesquisa com grande potencial.

Endereço do artigo: https://arxiv.org/abs/2502.14644