Otimizador "Budismo" C-AdamW: Uma linha de código acelera o treinamento de modelos grandes em 1,47 vezes!

AIbase基地

Publicado emNotícias e Informações de IA · 5 minutos de leitura · Nov 27, 2024

223

No mundo da IA, a frase "força bruta resolve tudo" parece ter se tornado uma regra de ouro. Quanto maior o modelo, mais dados e maior a capacidade de processamento, mais perto parecemos estar do Santo Graal da inteligência. No entanto, por trás desse avanço meteórico, escondem-se enormes pressões de custo e consumo de energia.

Para tornar o treinamento de IA mais eficiente, os cientistas têm procurado otimizadores mais poderosos, como um treinador que guia os parâmetros do modelo para otimização contínua, atingindo o estado ideal. O AdamW, como otimizador padrão de pré-treinamento do Transformer, tem sido um marco na indústria por anos. No entanto, diante da crescente escala de modelos, o AdamW começa a mostrar suas limitações.

Não existe um método que melhore a velocidade de treinamento e reduza o consumo de energia? Não se preocupe, uma equipe totalmente chinesa chega com sua "arma secreta": C-AdamW!

C-AdamW, abreviação de Cautious AdamW, significa "AdamW Cauteloso". Soa "zen-budismo", não é? De fato, a ideia central do C-AdamW é "pensar três vezes antes de agir".

Imagine os parâmetros do modelo como um grupo de crianças cheias de energia, sempre querendo correr por aí. O AdamW é como um professor dedicado, tentando guiá-las na direção certa. Mas às vezes, as crianças ficam muito animadas, desviam do caminho e acabam perdendo tempo e energia.

Nesse momento, o C-AdamW atua como um sábio ancião, com "olhos de águia", capaz de identificar com precisão se a direção da atualização está correta. Se estiver errado, o C-AdamW para imediatamente, evitando que o modelo se afaste cada vez mais do caminho certo.

Essa estratégia "cautelosa" garante que cada atualização reduza efetivamente a função de perda, acelerando a velocidade de convergência do modelo. Os resultados experimentais mostram que o C-AdamW aumentou a velocidade de treinamento em até 1,47 vezes no pré-treinamento Llama e MAE!

Mais importante ainda, o C-AdamW quase não apresenta custo computacional adicional; basta uma simples modificação de linha no código existente. Isso significa que os desenvolvedores podem facilmente aplicar o C-AdamW a vários treinamentos de modelos, desfrutando de "velocidade e emoção"!

O aspecto "zen" do C-AdamW reside na preservação da função hamiltoniana do Adam e na garantia de convergência sob análise de Lyapunov. Isso significa que o C-AdamW não é apenas mais rápido, mas também mais estável, evitando problemas como falhas de treinamento.

Claro, "zen" não significa "inércia". A equipe de pesquisa afirma que continuará explorando funções ϕ mais ricas e aplicando máscaras no espaço de recursos, em vez do espaço de parâmetros, para melhorar ainda mais o desempenho do C-AdamW.

É previsível que o C-AdamW se torne o queridinho do campo de aprendizado profundo, revolucionando o treinamento de grandes modelos!

Endereço do artigo: https://arxiv.org/abs/2411.16085

GitHub:

https://github.com/kyleliang919/C-Optim

Moonshot lança novo otimizador Muon, com aumento significativo na eficiência computacional

Recentemente, a área de inteligência artificial foi novamente agitada com o anúncio da Moonshot (月之暗面) do lançamento em código aberto de seu novo otimizador, Muon, que aumentou com sucesso a eficiência computacional em duas vezes em comparação com o AdamW tradicional. O lançamento deste novo otimizador coincide com a iminente publicação em código aberto de vários repositórios de código da DeepSeek, gerando grande atenção e discussão na indústria. O otimizador Muon foi proposto inicialmente em 2024 por pesquisadores da OpenAI, como Keller Jordan, e demonstrou excelente desempenho no treinamento de modelos em pequena escala.

Equipe da Stanford lança SIRIUS: Uma estrutura de raciocínio multiagente auto-otimizadora

Com o avanço da inteligência artificial, os sistemas multiagentes estão se tornando cada vez mais poderosos na resolução de tarefas complexas em várias áreas. Esses sistemas são compostos por vários agentes especializados que trabalham em conjunto, aproveitando suas respectivas forças para atingir um objetivo comum. Essa colaboração se destaca em tarefas de raciocínio complexo, programação, descoberta de medicamentos e garantia de segurança, pois as interações estruturadas entre os agentes não apenas melhoram a eficiência na resolução de problemas, mas também permitem que eles se corrijam mutuamente, melhorando assim seus respectivos resultados. Estudos demonstram que essa abordagem colaborativa frequentemente supera as abordagens individuais em tarefas que exigem raciocínio rigoroso ou verificação de fatos.

Nous Research lança o otimizador DisTrO: treinamento de modelos de IA agora possível mesmo em redes comuns

A equipe Nous Research lançou um novo otimizador chamado DisTrO, projetado para reduzir a demanda de transferência de informações no treinamento distribuído na internet, melhorando significativamente a eficiência do treinamento de modelos de IA. O DisTrO permite o treinamento em condições de rede comuns, permitindo que indivíduos e instituições em todo o mundo participem do desenvolvimento de IA usando seus próprios computadores, quebrando o monopólio das grandes empresas no treinamento de IA. Em comparação com o algoritmo tradicional All-Reduce, o DisTrO apresenta uma melhoria de eficiência de até 857 vezes, a cada etapa de treinamento

Notícias e Informações de IA

Otimizador "Budismo" C-AdamW: Uma linha de código acelera o treinamento de modelos grandes em 1,47 vezes!

AIbase基地

Notícias de IA Relacionadas Recomendadas

Moonshot lança novo otimizador Muon, com aumento significativo na eficiência computacional

Equipe da Stanford lança SIRIUS: Uma estrutura de raciocínio multiagente auto-otimizadora

Nous Research lança o otimizador DisTrO: treinamento de modelos de IA agora possível mesmo em redes comuns