O YaFSDP é uma estrutura de dados paralela distribuída, projetada para colaborar eficazmente com arquiteturas de redes neurais do tipo Transformer. Ele é 20% mais rápido que o FSDP tradicional no pré-treinamento de modelos de linguagem de grande porte (LLMs) e apresenta desempenho superior em condições de alta pressão de memória. O YaFSDP visa reduzir a sobrecarga de comunicação e operações de memória.