Uma equipe da Universidade de Pequim e da Universidade de Ciência e Tecnologia de Hong Kong fez uma grande descoberta: eles desenvolveram um método de treinamento que permitiu que um modelo médico de 8 bilhões de parâmetros (8B) alcançasse o desempenho do GPT-4. E não para por aí, eles introduziram um novo conceito – a "lacuna de estabilidade" – para explicar certos fenômenos observados em grandes modelos de linguagem durante o pré-treinamento contínuo.
Nota da imagem: Imagem gerada por IA, fornecida pelo Midjourney.
Primeiramente, eles observaram que durante o pré-treinamento contínuo, o desempenho do modelo na área alvo inicialmente diminui antes de aumentar, semelhante a uma montanha-russa. Para solucionar isso, eles propuseram três estratégias. A primeira é o pré-treinamento em múltiplas rodadas em subconjuntos de dados de tamanho apropriado, o que se mostrou mais eficiente na recuperação do desempenho do que o pré-treinamento em um único grande conjunto de dados. A segunda consiste em selecionar os subconjuntos de dados de maior qualidade para o pré-treinamento em múltiplas rodadas. Por fim, a terceira estratégia envolve a mistura de dados para aproximar a distribuição dos dados de pré-treinamento, tornando o modelo mais estável.
Essas estratégias mostraram resultados significativos no pré-treinamento contínuo e no ajuste fino por instruções na área médica, melhorando o desempenho e reduzindo o custo computacional. Além disso, o modelo Llama-3-Physician-8B de código aberto já está disponível no HuggingFace.
A importância desta pesquisa vai além disso. Eles descobriram que, usando essas estratégias, o modelo OpenLLaMa precisou apenas de quatro rodadas de treinamento em um conjunto de dados de alta qualidade com 5 bilhões de parâmetros para superar significativamente todos os modelos de referência em tarefas médicas. Isso não apenas melhorou o desempenho, mas também reduziu significativamente o consumo de recursos computacionais.
Ainda mais impressionante, o modelo Llama-3-Physician-8B-insturct superou outros modelos de código aberto de tamanho similar em tarefas de perguntas e respostas médicas, chegando a superar o modelo GPT-3.5 fechado e se aproximando do nível do GPT-4. Isso representa uma verdadeira revolução na área médica.
Este estudo não apenas oferece um novo método de treinamento, mas também demonstra o enorme potencial dos grandes modelos de linguagem na área médica. Através do pré-treinamento contínuo e do ajuste fino por instruções, podemos alcançar um desempenho superior em áreas específicas, reduzindo simultaneamente os custos computacionais. Isso é, sem dúvida, uma grande notícia para o setor médico.
Esta pesquisa também nos lembra que o treinamento de grandes modelos de linguagem não é um processo único, mas requer otimização e ajustes contínuos. A introdução do conceito de "lacuna de estabilidade" permite uma melhor compreensão e solução de problemas no treinamento de modelos, permitindo que eles desempenhem um papel mais significativo em áreas específicas. Isso representa não apenas um avanço tecnológico, mas também uma profunda compreensão do setor médico.
Link do artigo: https://arxiv.org/abs/2406.14833
Link do código aberto: https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct