A gigante russa de tecnologia Yandex lançou recentemente para a comunidade global de IA sua ferramenta YaFSDP de desenvolvimento próprio, o método de otimização de treinamento de modelos de linguagem grandes (LLMs) mais eficiente do setor atualmente. Em comparação com a tecnologia FSDP amplamente usada na indústria, o YaFSDP pode aumentar a velocidade de treinamento do LLM em até 26%, economizando potencialmente muitos recursos de GPU para desenvolvedores e empresas de IA.

YaFSDP (Yandex Full Sharded Data Parallel) é uma versão aprimorada do FSDP desenvolvida pela Yandex, focada em otimizar a eficiência da comunicação e o uso da memória da GPU, eliminando gargalos no processo de treinamento do LLM. Em tarefas intensivas em comunicação, como pré-treinamento, alinhamento e ajuste fino, o YaFSDP demonstra uma melhoria de desempenho excepcional, especialmente quando o tamanho do parâmetro de treinamento atinge 30 bilhões a 70 bilhões.

IA, inteligência artificial, robô, 2024d9dc94358d8e

Observação da fonte da imagem: A imagem foi gerada por IA, fornecida pela Midjourney.

Mikhail Khruschev, especialista em desenvolvimento sênior da Yandex e membro da equipe YaFSDP, disse: "O YaFSDP é mais adequado para modelos abertos amplamente utilizados baseados na arquitetura LLaMA. Estamos continuamente otimizando e expandindo sua multifuncionalidade em diferentes arquiteturas de modelos e tamanhos de parâmetros, a fim de melhorar a eficiência do treinamento em cenários mais amplos."

Estima-se que, para treinar um modelo com 70 bilhões de parâmetros, o uso do YaFSDP pode economizar cerca de 150 GPUs, o que equivale a uma economia mensal de US$ 500.000 a US$ 1.500.000 em custos de computação. Essa economia de custos pode tornar o treinamento de LLM autônomo mais viável para pequenas e médias empresas e desenvolvedores individuais.

Ao mesmo tempo, a Yandex se compromete a continuar contribuindo para o desenvolvimento da comunidade global de IA, e a publicação do código aberto do YaFSDP é uma demonstração desse compromisso. Anteriormente, a empresa já havia compartilhado várias ferramentas de IA de código aberto aclamadas, como a biblioteca de aumento de gradiente de alto desempenho CatBoost, o algoritmo de compressão de modelo extremo AQLM e a biblioteca de simplificação de treinamento de modelo Petals.

Analistas do setor apontam que, com o aumento contínuo da escala do LLM, a melhoria da eficiência do treinamento se tornará a chave para o desenvolvimento da inteligência artificial. Avanços tecnológicos como o YaFSDP podem ajudar a comunidade de IA a acelerar a pesquisa em modelos grandes e explorar seu potencial em processamento de linguagem natural, visão computacional e outros campos.