En el cierre de la semana de código abierto, DeepSeek, empresa líder en IA de China, lanzó una "bomba nuclear" tecnológica: el sistema de archivos paralelo de alto rendimiento 3FS (Fire-Flyer File System) y el marco de procesamiento de datos Smallpond, diseñados específicamente para entornos de computación modernos. Esta combinación aborda directamente los problemas de procesamiento de datos en el entrenamiento e inferencia de IA, alcanzando un rendimiento de clúster de 6,6 TiB/s, un nuevo récord en la industria y marcando el inicio de una nueva era en la tecnología de almacenamiento distribuido.
Rendimiento revolucionario: la innovación arquitectónica define un nuevo estándar
3FS, mediante una arquitectura descentralizada y un diseño semántico de alta consistencia, logra un rendimiento de lectura agregada de 6,6 TiB/s en un clúster de 180 nodos, con un pico de búsqueda de KVCache de 40 GiB/s por nodo. Su rendimiento en la prueba de referencia GraySort alcanza los 3,66 TiB/min (25 nodos), una mejora exponencial con respecto a las soluciones tradicionales. El sistema optimiza profundamente las características de las SSD y la red RDMA, llevando al máximo la utilización del ancho de banda del hardware y proporcionando un suministro de datos estable para clústeres de entrenamiento de IA de miles de tarjetas.
Reconfiguración de escenarios: potenciación de todo el flujo de trabajo de IA
Como infraestructura central de la versión DeepSeek V3/R1, 3FS ya está completamente integrado en etapas clave como el preprocesamiento de datos, el almacenamiento de puntos de control, la búsqueda de vectores y el almacenamiento en caché de inferencia. Su diseño de capa de almacenamiento compartido simplifica significativamente la complejidad del desarrollo distribuido, mientras que la alta consistencia garantiza la seguridad de las operaciones concurrentes a gran escala. El marco Smallpond, también de código abierto, proporciona una capacidad de procesamiento de datos de nivel PB ligera, utilizando DuckDB para lograr una ingeniería de datos "sin servidor", formando un ciclo de vida completo desde el almacenamiento hasta el cálculo.
Estrategia de código abierto: acelerando la democratización de la infraestructura de IA
La publicación de código abierto de 3FS y Smallpond continúa con el ritmo de apertura tecnológica de "cinco lanzamientos consecutivos" de DeepSeek. Al hacer públicos los sistemas probados en sus propias operaciones de IA, DeepSeek está impulsando al sector a superar los cuellos de botella de almacenamiento en aplicaciones intensivas en datos. Los análisis sugieren que esta solución podría superar a los sistemas distribuidos tradicionales como Ceph y Lustre, especialmente en el entrenamiento de modelos grandes, abriendo nuevos paradigmas.