No campo da inteligência artificial, obter informações precisas de bancos de dados de conhecimento sempre foi um grande desafio. Recentemente, a empresa de inteligência artificial Anthropic anunciou um novo método chamado "recuperação de contexto", projetado para melhorar a precisão da recuperação de conhecimento. Este método adiciona mais informações de contexto durante a recuperação, ajudando os sistemas de IA a fornecer respostas mais precisas.
Os sistemas existentes de geração aprimorada por recuperação (RAG) geralmente dividem os documentos em pequenos pedaços para indexação, o que pode levar à omissão de informações contextuais importantes. A solução da Anthropic consiste em adicionar um breve resumo do documento antes de cada pequeno pedaço, geralmente com menos de 100 palavras. Por exemplo, o fragmento de texto original "A receita da empresa cresceu 3% em relação ao trimestre anterior" se torna, após o processamento de contexto: "Este fragmento vem do documento SEC do segundo trimestre de 2023 da ACME Corp; a receita do trimestre anterior foi de US$ 314 milhões, e a receita da empresa cresceu 3% em relação ao trimestre anterior." Através desse método, a Anthropic afirma que seu novo método pode reduzir a taxa de erro na recuperação de informações em até 49%. Combinado com a reordenação dos resultados, a melhoria na precisão pode chegar a 67%.
Ainda mais interessante, a pesquisa da Universidade Cornell também apoia esse método de recuperação de contexto. Os pesquisadores propuseram uma técnica semelhante, chamada "incorporação de documento contextual" (CDE). Seu método reorganiza os dados de treinamento, incluindo documentos semelhantes, mas difíceis de distinguir, em cada lote, forçando o modelo a aprender diferenças mais sutis. Além disso, os pesquisadores desenvolveram um codificador de duas etapas que incorpora diretamente as informações dos documentos vizinhos nas incorporações, permitindo que o modelo leve em consideração a frequência relativa de palavras e outras pistas contextuais.
Nos testes do "Benchmark de Incorporação de Texto Massivo" (MTEB), o modelo CDE obteve os melhores resultados em sua categoria de tamanho. Os experimentos também mostraram que o CDE tem vantagens particulares em pequenos conjuntos de dados específicos de domínio, como finanças ou medicina, e se destaca em tarefas como classificação, agrupamento e similaridade semântica. No entanto, os pesquisadores também observam que ainda não está claro qual o impacto do CDE em bancos de dados de conhecimento com bilhões de documentos, e pesquisas sobre o tamanho e a seleção ideais do contexto ainda precisam ser aprofundadas.
Destaques:
🌟 O método de "recuperação de contexto" da Anthropic pode reduzir a taxa de erro na recuperação de informações em até 49%, e pode ser combinado com outras tecnologias para melhorar ainda mais a precisão.
📊 O método de "incorporação de documento contextual" da Universidade Cornell mostra fortes vantagens em domínios específicos, melhorando efetivamente as tarefas de classificação e agrupamento.
🔍 Pesquisas futuras devem se aprofundar em como aplicar esses métodos a bancos de dados de conhecimento em larga escala e encontrar as melhores estratégias de processamento de contexto.