Um estudo recente do Instituto Federal de Tecnologia de Lausanne (EPFL) na Suíça comparou dois métodos principais de treinamento adaptativo de grandes modelos de linguagem (LLMs): aprendizado em contexto (ICL) e ajuste fino por instruções (IFT). Os pesquisadores usaram o benchmark MT-Bench para avaliar a capacidade dos modelos de seguir instruções, descobrindo que, em determinadas circunstâncias, ambos os métodos apresentaram vantagens e desvantagens.
A pesquisa descobriu que, quando o número de amostras de treinamento disponíveis é pequeno (por exemplo, não mais que 50), o ICL e o IFT têm desempenhos muito próximos. Isso sugere que, com dados limitados, o ICL pode servir como uma alternativa ao IFT.
No entanto, à medida que a complexidade da tarefa aumenta, como em cenários de diálogo de várias rodadas, a vantagem do IFT se torna evidente. Os pesquisadores acreditam que os modelos ICL são propensos a superajuste ao estilo de uma única amostra, levando a um desempenho ruim no processamento de diálogos complexos, podendo até ser inferior ao do modelo básico.
O estudo também examinou o método URIAL, que usa apenas três amostras e regras de seguimento de instruções para treinar modelos de linguagem básicos. Embora o URIAL tenha apresentado resultados positivos, ainda ficou aquém dos modelos treinados com IFT. Os pesquisadores da EPFL melhoraram o desempenho do URIAL, aproximando-o do desempenho dos modelos ajustados finamente, através da melhoria da estratégia de seleção de amostras. Isso destaca a importância de dados de treinamento de alta qualidade para ICL, IFT e treinamento de modelos básicos.
Além disso, a pesquisa descobriu que os parâmetros de decodificação têm um impacto significativo no desempenho do modelo. Esses parâmetros determinam como o modelo gera texto e são cruciais tanto para LLMs básicos quanto para modelos treinados com URIAL.
Os pesquisadores observaram que, mesmo os modelos básicos, com os parâmetros de decodificação adequados, podem seguir instruções até certo ponto.
O significado desta pesquisa reside em sua revelação de que o aprendizado em contexto pode ajustar modelos de linguagem de forma rápida e eficiente, especialmente quando as amostras de treinamento são limitadas. No entanto, para tarefas complexas, como diálogos de várias rodadas, o ajuste fino por instruções ainda é a melhor opção.
Com o aumento do tamanho do conjunto de dados, o desempenho do IFT continua a melhorar, enquanto o desempenho do ICL tende a se estabilizar após um certo número de amostras. Os pesquisadores enfatizam que a escolha entre ICL e IFT depende de vários fatores, como recursos disponíveis, quantidade de dados e necessidades específicas do aplicativo. Independentemente do método escolhido, dados de treinamento de alta qualidade são essenciais.