Pour conclure la Semaine du logiciel libre, DeepSeek, entreprise leader de l'IA en Chine, a lancé une véritable « bombe » technologique : le système de fichiers parallèle hautes performances 3FS (Fire-Flyer File System) et le framework de traitement de données Smallpond, spécialement conçus pour les environnements informatiques modernes. Ce duo s'attaque directement aux problèmes de traitement des données liés à l'entraînement et à l'inférence de l'IA, atteignant un débit d'agrégation de 6,6 TiB/s sur un cluster, un nouveau record du secteur, marquant ainsi une nouvelle ère pour les technologies de stockage distribué.
Des performances révolutionnaires : une architecture innovante qui définit de nouvelles normes
Grâce à son architecture décentralisée et à sa conception sémantique fortement cohérente, le 3FS atteint un débit d'agrégation de lecture de 6,6 TiB/s sur un cluster de 180 nœuds, avec un pic de recherche KVCache par nœud dépassant les 40 GiB/s. Ses performances dans le test de référence GraySort atteignent 3,66 TiB/min (25 nœuds), soit une amélioration exponentielle par rapport aux solutions traditionnelles. Le système optimise en profondeur les caractéristiques des SSD et des réseaux RDMA, poussant l'utilisation de la bande passante matérielle à son maximum et fournissant un flux de données stable aux clusters d'entraînement IA à plusieurs milliers de cartes graphiques.
Une restructuration des scénarios : une puissance globale pour les flux de travail de l'IA
En tant qu'infrastructure essentielle de la version V3/R1 de DeepSeek, le 3FS est désormais pleinement intégré dans les étapes clés : prétraitement des données, stockage des points de contrôle, recherche vectorielle et mise en cache de l'inférence. Sa conception de couche de stockage partagée simplifie considérablement la complexité du développement distribué, tandis que sa forte cohérence garantit la sécurité des opérations concurrentes à grande échelle. Le framework Smallpond, également open source, offre des capacités de traitement de données légères de niveau pétaoctet, s'appuyant sur DuckDB pour une ingénierie de données « sans serveur », créant ainsi un cycle de vie complet, du stockage au calcul.
Stratégie open source : accélérer la démocratisation de l'infrastructure de l'IA
La publication en open source de 3FS et Smallpond s'inscrit dans la continuité de la cadence d'ouverture technologique « cinq jours d'affilée » de DeepSeek. En rendant public un système validé par ses propres activités d'IA, DeepSeek contribue à surmonter les goulots d'étranglement de stockage des applications gourmandes en données. Selon les analyses, cette solution pourrait surpasser les systèmes distribués traditionnels tels que Ceph et Lustre, en particulier dans le domaine de l'entraînement des grands modèles, ouvrant ainsi de nouvelles perspectives.