Com iterações e atualizações contínuas, os grandes modelos de linguagem estão se tornando cada vez mais inteligentes. No entanto, para que eles realmente entendam nossas necessidades, a otimização de instruções é crucial. Os especialistas do Tencent Youtu Lab e da Universidade Jiao Tong de Xangai uniram forças e publicaram uma revisão completa sobre a avaliação e seleção de conjuntos de dados para otimização de instruções, revelando os segredos para melhorar o desempenho desses modelos.
O objetivo dos grandes modelos de linguagem é dominar a essência do processamento de linguagem natural, e a otimização de instruções é um passo importante nesse processo de aprendizado. Os especialistas analisaram profundamente como avaliar e selecionar conjuntos de dados para garantir que os grandes modelos de linguagem tenham um desempenho excelente em diversas tarefas.
Esta revisão não apenas é extensa, mas também abrange mais de 400 publicações relevantes, fornecendo um guia detalhado com base em três dimensões: qualidade dos dados, diversidade e importância.
A qualidade dos dados afeta diretamente a eficácia da otimização de instruções. Os especialistas propuseram vários métodos de avaliação, incluindo métricas de design manual, métricas baseadas em modelos, pontuação automática do GPT e a indispensável avaliação humana.
A avaliação da diversidade concentra-se na riqueza do conjunto de dados, incluindo a diversidade de vocabulário, semântica e distribuição geral dos dados. Com conjuntos de dados diversificados, o modelo pode generalizar melhor para vários cenários.
A avaliação da importância consiste em selecionar as amostras mais cruciais para o treinamento do modelo. Isso não apenas melhora a eficiência do treinamento, mas também garante a estabilidade e a precisão do modelo ao lidar com tarefas complexas.
Embora as pesquisas atuais já tenham alcançado alguns resultados, os especialistas também apontaram os desafios existentes, como a correlação fraca entre a seleção de dados e o desempenho do modelo, e a falta de um padrão unificado para avaliar a qualidade das instruções.
Para o futuro, os especialistas defendem a criação de benchmarks específicos para avaliar modelos de otimização de instruções, além de melhorar a explicabilidade dos pipelines de seleção para se adaptarem a diferentes tarefas a jusante.
Esta pesquisa do Tencent Youtu Lab e da Universidade Jiao Tong de Xangai não apenas fornece um recurso valioso, mas também aponta o caminho para o desenvolvimento de grandes modelos de linguagem. Com o avanço contínuo da tecnologia, temos razões para acreditar que os grandes modelos de linguagem se tornarão mais inteligentes e servirão melhor à humanidade.
Endereço do artigo: https://arxiv.org/pdf/2408.02085