Na área de IA generativa em rápido desenvolvimento, a equipe da Nous Research está conduzindo um experimento único: eles estão usando máquinas distribuídas globalmente para pré-treinar um grande modelo de linguagem (LLM) de 1,5 bilhão de parâmetros. Esse processo evita o desenvolvimento centralizado tradicionalmente realizado em centros de dados ou superclusters caros e que consomem muita energia.

image.png

A Nous Research também está transmitindo ao vivo esse processo de pré-treinamento em seu site especializado, distro.nousresearch.com, mostrando em tempo real o desempenho do modelo em vários benchmarks de avaliação e fornecendo um mapa da localização do hardware participante do treinamento, abrangendo vários locais nos EUA e na Europa. No momento da publicação deste artigo, o tempo restante de pré-treinamento é de aproximadamente 57 horas (ou seja, 2,3 dias), e o progresso do treinamento já ultrapassou 75%.

O pré-treinamento é a primeira e mais fundamental etapa do treinamento de um LLM. Ele envolve o treinamento em um grande volume de dados de texto para aprender as características e a estrutura estatística da linguagem. Nesta fase, o modelo captura padrões de linguagem, gramática e relações contextuais entre vocabulários ao processar amplos conjuntos de dados de texto. Esse processo permite que o modelo desenvolva uma compreensão abrangente da linguagem, gerando texto coeso e executando várias tarefas relacionadas à linguagem. Após o pré-treinamento, o modelo ainda precisa ser ajustado para tarefas ou áreas específicas.

Se esse plano for bem-sucedido, a Nous Research demonstrará que é possível treinar LLMs de ponta sem a necessidade de superclusters caros ou transmissão de baixa latência, marcando uma nova era para o treinamento de IA distribuída. Esse método de treinamento de código aberto pode mudar o equilíbrio de poder na IA generativa, permitindo que pequenas equipes e atores não corporativos sejam mais competitivos nesse campo.

A nova tecnologia usada pela Nous é chamada Nous DisTrO (Distributed Training Over-the-Internet), projetada para reduzir a necessidade de largura de banda de comunicação entre GPUs durante o pré-treinamento. De acordo com o último lançamento da Nous Research, o DisTrO pode reduzir a necessidade de comunicação em até 10.000 vezes, mantendo taxas de convergência e curvas de perda competitivas mesmo em conexões de internet mais lentas e econômicas.

Além disso, a principal inovação do DisTrO reside na compressão eficaz da quantidade de dados trocados entre as GPUs sem afetar o desempenho do modelo. Essa tecnologia se baseia no algoritmo de otimização de momento desacoplado (DeMo) anterior, que também visa reduzir significativamente a necessidade de comunicação entre GPUs, mantendo o desempenho do treinamento.

Em termos de hardware, o processo de pré-treinamento da Nous Research contou com o apoio de vários parceiros conhecidos, como Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud e Andromeda Cluster, que forneceram o hardware heterogêneo necessário para testar completamente a capacidade do DisTrO em ambientes distribuídos reais.

Link para o blog: https://nousresearch.com/

Destaques:

🌐 A Nous Research está conduzindo um treinamento de IA distribuído globalmente para pré-treinar um grande modelo de linguagem de 1,5 bilhão de parâmetros.

💻 Usando a tecnologia Nous DisTrO, o processo reduz significativamente a necessidade de largura de banda de comunicação entre GPUs, tornando o treinamento de baixo custo possível.

🤝 O projeto contou com o apoio de vários fornecedores de hardware, impulsionando o progresso da pesquisa em IA distribuída.