Recentemente, a equipe de pesquisa da Nous Research trouxe notícias animadoras para o mundo da tecnologia: eles lançaram um novo otimizador chamado DisTrO (Distributed Internet Training). Essa tecnologia significa que modelos de IA poderosos não são mais exclusivos de grandes empresas; indivíduos comuns também podem treiná-los de forma eficiente em seus próprios computadores domésticos.
O DisTrO é incrível porque reduz significativamente a quantidade de informações que precisam ser transferidas entre várias unidades de processamento gráfico (GPUs) durante o treinamento de modelos de IA. Graças a essa inovação, modelos de IA poderosos podem ser treinados em condições de rede comuns, permitindo até mesmo que pessoas ou instituições em todo o mundo colaborem no desenvolvimento de tecnologias de IA.
De acordo com o artigo técnico da Nous Research, a melhoria de eficiência do DisTrO é surpreendente: sua eficiência de treinamento é 857 vezes maior do que um algoritmo comum, o All-Reduce, e a quantidade de informações transmitidas a cada etapa de treinamento caiu de 74,4 GB para 86,8 MB. Essa melhoria não apenas torna o treinamento mais rápido e barato, mas também significa que mais pessoas têm a oportunidade de participar desse campo.
A Nous Research declarou em suas plataformas de mídia social que, com o DisTrO, pesquisadores e instituições não precisam mais depender de uma única empresa para gerenciar e controlar o processo de treinamento, oferecendo-lhes mais liberdade para inovar e experimentar. Esse ambiente de competição aberta ajuda a impulsionar o progresso tecnológico, beneficiando toda a sociedade.
Na área de treinamento de IA, as necessidades de hardware costumam ser assustadoras. Especialmente GPUs Nvidia de alto desempenho se tornaram cada vez mais escassas e caras, sendo acessíveis apenas a empresas com grande capital. No entanto, a Nous Research tem uma filosofia totalmente diferente: eles se dedicam a tornar o treinamento de modelos de IA acessível ao público a um custo menor, permitindo que mais pessoas participem.
O DisTrO funciona reduzindo a necessidade de sincronização de gradiente completo entre GPUs, diminuindo a sobrecarga de comunicação em quatro a cinco ordens de magnitude. Essa inovação permite que modelos de IA sejam treinados em conexões de internet mais lentas; velocidades de download de 100 Mbps e upload de 10 Mbps, facilmente acessíveis em muitas casas atualmente, são suficientes.
Em testes iniciais com o modelo de linguagem grande Llama2 do Meta, o DisTrO mostrou resultados de treinamento comparáveis aos métodos tradicionais, mas com uma redução significativa na quantidade de comunicação necessária. Os pesquisadores também observaram que, embora os testes tenham sido realizados apenas em modelos menores, eles especulam que, à medida que o tamanho do modelo aumenta, a redução da necessidade de comunicação pode ser ainda mais significativa, chegando a 1000 a 3000 vezes.
É importante notar que, embora o DisTrO torne o treinamento mais flexível, ele ainda depende do suporte de GPUs; no entanto, essas GPUs não precisam mais estar concentradas em um único local, podendo ser distribuídas em todo o mundo e colaborar pela internet comum. Observamos que, em testes rigorosos com 32 GPUs H100, o DisTrO conseguiu igualar a velocidade de convergência do método tradicional AdamW+All-Reduce, mas com uma redução significativa na demanda de comunicação.
O DisTrO não se limita a modelos de linguagem grandes; ele também pode ser usado para treinar outros tipos de IA, como modelos de geração de imagens, e suas perspectivas futuras são promissoras. Além disso, ao melhorar a eficiência do treinamento, o DisTrO também pode reduzir o impacto ambiental do treinamento de IA, otimizando o uso de infraestrutura existente e reduzindo a necessidade de grandes centros de dados.
Com o DisTrO, a Nous Research não apenas impulsionou o progresso tecnológico no treinamento de IA, mas também promoveu um ecossistema de pesquisa mais aberto e flexível, abrindo infinitas possibilidades para o futuro desenvolvimento da IA.
Referências: https://venturebeat.com/ai/this-could-change-everything-nous-research-unveils-new-tool-to-train-powerful-ai-models-with-10000x-efficiency/