Nos últimos anos, treinar grandes modelos de linguagem (LLMs) tornou-se cada vez mais caro e complexo, com apenas algumas grandes empresas de tecnologia possuindo os recursos computacionais necessários. No entanto, o Google lançou recentemente um novo método chamado SALT (Small Model Assisted Large Model Training - Treinamento de Grandes Modelos Assistido por Modelos Pequenos), uma inovação que pode revolucionar o cenário de treinamento de IA.
Observação da fonte: Imagem gerada por IA, provedor de licenciamento de imagens Midjourney
De acordo com um novo artigo de pesquisa do Google Research e DeepMind, "Um pouco de ajuda percorre um longo caminho: Treinamento eficiente de LLM usando modelos de linguagem menores", o SALT introduz um novo processo de treinamento em duas fases. Este método não é apenas eficiente, mas também mais prático, mudando a forma como treinamos modelos.
A primeira fase do SALT é a destilação do conhecimento. Nesta fase, um modelo de linguagem menor (SLM) atua como professor, transmitindo seu conhecimento para um modelo maior. O modelo menor compartilha seu conhecimento aprendido por meio de "rótulos suaves", ajudando o modelo maior a dominar os conceitos básicos no início do aprendizado. Esta fase é particularmente adequada para tarefas "simples" onde o modelo menor tem alta confiança em sua previsão na área de aprendizado.
A segunda fase é o aprendizado autossupervisionado. Nesta fase, o modelo maior começa a aprender de forma independente, focando em dominar padrões mais complexos e tarefas desafiadoras. Essa transição requer estratégias cuidadosamente projetadas, incluindo decaimento linear e decaimento linear proporcional, garantindo uma transição suave para o modelo maior, reduzindo gradualmente sua dependência no modelo menor.
Os pesquisadores do Google descobriram em seus experimentos que o uso de um modelo menor de 1,5 bilhão de parâmetros para treinar um modelo maior de 2,8 bilhões de parâmetros reduziu o tempo de treinamento em 28% no conjunto de dados "Stack". Após o ajuste fino, a precisão do modelo maior em problemas matemáticos aumentou de 31,84% para 34,87%, e a precisão na compreensão de leitura aumentou de 63,7% para 67%. Este novo método não apenas melhora a eficiência do treinamento, mas também produz melhorias significativas no desempenho.
O surgimento do SALT pode reduzir as barreiras para o desenvolvimento de IA, permitindo que muitas pequenas instituições de pesquisa e empresas, anteriormente limitadas por recursos, participem do desenvolvimento de modelos de IA. As oportunidades de pesquisa e desenvolvimento se tornarão mais acessíveis, potencialmente gerando soluções de IA mais exclusivas e especializadas, impulsionando a inovação e a aplicação em áreas relevantes.
Destaques:
🌟 O método SALT pode reduzir o tempo de treinamento de grandes modelos em 28%, reduzindo significativamente os custos computacionais.
📈 O uso de modelos menores para destilação de conhecimento pode melhorar significativamente o desempenho de grandes modelos em tarefas complexas.
🔍 A inovação do SALT pode reduzir as barreiras para o desenvolvimento de IA, permitindo que mais pequenas instituições participem da pesquisa em IA.