A empresa líder chinesa em IA, DeepSeek, lançou uma verdadeira “bomba tecnológica” no encerramento da semana de código aberto, anunciando oficialmente o 3FS (Fire-Flyer File System), um sistema de arquivos paralelo de alto desempenho projetado para cenários de computação moderna, e o framework de processamento de dados Smallpond. Essa combinação aborda diretamente os desafios de processamento de dados no treinamento e inferência de IA, atingindo um recorde de 6,6 TiB/s de taxa de transferência de cluster e marcando uma nova era para a tecnologia de armazenamento distribuído.
Desempenho revolucionário: inovação arquitetônica define novos padrões
O 3FS, por meio de sua arquitetura descentralizada e design semântico de alta consistência, alcança uma taxa de transferência de leitura agregada de 6,6 TiB/s em um cluster de 180 nós, com pico de busca KVCache de 40 GiB/s em um único nó. Seu desempenho no teste de referência GraySort atingiu 3,66 TiB/min (25 nós), representando uma melhoria exponencial em relação às soluções tradicionais. O sistema otimiza profundamente as características de SSD e rede RDMA, levando ao máximo a utilização da largura de banda de hardware e fornecendo um suprimento estável de dados para clusters de treinamento de IA de nível de milhares de GPUs.
Reconfiguração de cenários: capacitação em toda a cadeia de trabalho da IA
Como infraestrutura central da versão DeepSeek V3/R1, o 3FS já está totalmente integrado em etapas cruciais, como pré-processamento de dados, armazenamento de checkpoints, busca vetorial e cache de inferência. Seu design de camada de armazenamento compartilhado simplifica significativamente a complexidade do desenvolvimento distribuído, enquanto a alta consistência garante a segurança de operações simultâneas em larga escala. O framework Smallpond, também de código aberto, constrói uma capacidade de processamento de dados de nível PB leve, utilizando o DuckDB para implementar engenharia de dados “sem servidor”, formando um ciclo ecológico completo, desde o armazenamento até o cálculo.
Estratégia de código aberto: acelerando o processo de democratização da infraestrutura de IA
O lançamento em código aberto do 3FS e Smallpond continua o ritmo de abertura tecnológica de “cinco lançamentos em cinco dias” da DeepSeek. Ao disponibilizar ao público sistemas comprovados em seus próprios negócios de IA, a DeepSeek está impulsionando o setor a superar os gargalos de armazenamento em aplicativos de uso intensivo de dados. Análises sugerem que essa solução pode representar uma melhoria significativa em relação a sistemas distribuídos tradicionais, como Ceph e Lustre, especialmente abrindo novos paradigmas em cenários como treinamento de modelos grandes.