Recentemente, dois estudiosos chineses do Georgia Institute of Technology e da NVIDIA propuseram uma nova estrutura de ajuste fino chamada RankRAG. Esta estrutura simplifica significativamente o pipeline RAG (Retrieval-Augmented Generation) complexo original, usando um método de ajuste fino para permitir que o mesmo LLM (Large Language Model) execute tarefas de recuperação, classificação e geração, resultando em um aumento significativo no desempenho.
RAG (Retrieval-Augmented Generation) é uma técnica comumente usada na implantação de LLMs, especialmente adequada para tarefas de geração de texto que exigem amplo conhecimento factual. Normalmente, o processo RAG consiste em: um modelo denso baseado em codificação de texto recupera os principais segmentos de texto de um banco de dados externo, e então o LLM lê e gera. Este processo tem sido amplamente utilizado, mas também tem limitações, como a escolha do valor k. Se o valor k for muito grande, mesmo LLMs que suportam contexto longo terão dificuldades para processar rapidamente; se o valor k for muito pequeno, será necessário um mecanismo de recuperação com alta taxa de recall, e os mecanismos de recuperação e classificação existentes têm suas próprias deficiências.
Com base nos problemas acima, a estrutura RankRAG propõe uma nova abordagem: expandir as capacidades do LLM por meio de ajuste fino, permitindo que o próprio LLM realize a recuperação e classificação. Os resultados experimentais mostram que este método não apenas melhora a eficiência dos dados, mas também aumenta significativamente o desempenho do modelo. Especificamente, em vários benchmarks gerais e benchmarks intensivos em conhecimento biomédico, os modelos Llama38B/70B ajustados com RankRAG superaram os modelos ChatQA-1.58B e ChatQA-1.570B, respectivamente.
A chave do RankRAG está em sua alta interatividade e editabilidade. Os usuários não apenas podem visualizar o conteúdo gerado pela IA em tempo real, mas também podem editar e iterar diretamente na interface. Este mecanismo de feedback imediato melhora significativamente a eficiência do trabalho, tornando a IA uma verdadeira assistente no processo criativo. Mais emocionante ainda é que esta atualização permite que esses artefatos não sejam mais limitados à plataforma Claude, os usuários podem compartilhá-los facilmente em qualquer lugar.
A inovação da estrutura de ajuste fino RankRAG também inclui o ajuste fino de instruções em duas etapas. A primeira etapa é o ajuste fino supervisionado (SFT), misturando vários conjuntos de dados para melhorar a capacidade de seguir instruções do LLM. O conjunto de dados de ajuste fino da segunda etapa inclui vários dados de QA, dados de QA aprimorados por recuperação e dados de classificação de contexto, melhorando ainda mais a capacidade de recuperação e classificação do LLM.
Nos experimentos, o RankRAG superou consistentemente o modelo SOTA de código aberto atual, ChatQA-1.5, em nove conjuntos de dados de domínio geral. Especificamente, em tarefas de QA desafiadoras, como QA de cauda longa e QA de múltiplos saltos, o RankRAG melhorou o desempenho em mais de 10% em comparação com o ChatQA-1.5.
Em resumo, o RankRAG não apenas apresenta um excelente desempenho em tarefas de recuperação e geração, mas também demonstra sua forte adaptabilidade no benchmark biomédico RAG Mirage. Mesmo sem ajuste fino, o RankRAG superou muitos modelos de código aberto em áreas especializadas em tarefas de perguntas e respostas médicas.
Com a proposta e o aprimoramento contínuo da estrutura RankRAG, temos razões para acreditar que o futuro da colaboração criativa entre IA e humanos será ainda mais brilhante. Tanto desenvolvedores independentes quanto pesquisadores podem usar esta estrutura inovadora para gerar mais criatividade e possibilidades, impulsionando o desenvolvimento da tecnologia e de seus aplicativos.
Endereço do artigo: https://arxiv.org/abs/2407.02485