Uma equipe de pesquisa conjunta do Tencent Youtu Lab e da Universidade Jiao Tong de Xangai lançou um método revolucionário de aumento de conhecimento para otimizar modelos de linguagem de grande porte (LLMs), abrindo novos caminhos para a otimização de modelos. Essa tecnologia inovadora abandona as limitações do ajuste fino tradicional de modelos, extraindo conhecimento diretamente de dados de código aberto, simplificando significativamente o processo de otimização do modelo e alcançando desempenho superior à tecnologia de ponta (SOTA) em várias tarefas.
Nos últimos anos, embora os LLMs tenham feito progressos significativos em vários campos, eles ainda enfrentam muitos desafios em aplicações práticas. Os métodos tradicionais de ajuste fino de modelos exigem grandes quantidades de dados rotulados e recursos computacionais, o que é frequentemente inviável para muitas operações comerciais. Embora a comunidade de código aberto forneça uma riqueza de modelos de ajuste fino e conjuntos de dados de instruções, como utilizar eficazmente esses recursos com amostras rotuladas limitadas para melhorar a capacidade e o desempenho de generalização do modelo para tarefas específicas continua sendo um desafio para a indústria.
Para abordar esse problema, a equipe de pesquisa propôs uma nova estrutura experimental que se concentra no aprimoramento da capacidade do modelo usando conhecimento de código aberto sob a condição de dados de negócios reais rotulados com K-shot. Essa estrutura aproveita ao máximo o valor das amostras limitadas, fornecendo melhorias de desempenho para LLMs em tarefas direcionadas.
As principais inovações desta pesquisa incluem:
Seleção eficiente de modelos: por meio da avaliação abrangente da perplexidade de inferência, desempenho do modelo e riqueza de conhecimento, maximizando o potencial dos modelos existentes sob condições de dados limitados.
Otimização da extração de conhecimento: um método para extrair conhecimento relevante de dados de código aberto foi projetado, usando uma estratégia de seleção de dados que equilibra similaridade e diversidade para fornecer informações complementares ao modelo, reduzindo simultaneamente o risco de overfitting.
Sistema de modelo adaptativo: um sistema adaptativo baseado em uma estrutura de modelo de especialista misto foi construído para alcançar a complementaridade de conhecimento entre vários modelos eficazes e melhorar o desempenho geral.
Na fase experimental, a equipe de pesquisa realizou uma avaliação abrangente usando seis conjuntos de dados de código aberto. Os resultados mostraram que o novo método superou os métodos de referência e outros métodos avançados em todas as tarefas. Por meio da visualização do padrão de ativação do especialista, a pesquisa também descobriu que a contribuição de cada especialista para o modelo é essencial, confirmando ainda mais a eficácia do método.
Esta pesquisa não apenas demonstra o enorme potencial do conhecimento de código aberto no campo dos LLMs, mas também fornece novas ideias para o desenvolvimento futuro da tecnologia de inteligência artificial. Ele supera as limitações da otimização tradicional de modelos e fornece soluções práticas para empresas e instituições de pesquisa melhorarem o desempenho do modelo com recursos limitados.
Com o aprimoramento e a promoção contínua desta tecnologia, podemos acreditar que ela desempenhará um papel importante na atualização inteligente de várias indústrias. A cooperação entre o Tencent Youtu e a Universidade Jiao Tong de Xangai não é apenas um exemplo de cooperação entre o mundo acadêmico e a indústria, mas também um passo importante para impulsionar a tecnologia de inteligência artificial para um nível superior.
Endereço do artigo: https://www.arxiv.org/pdf/2408.15915