Dans le domaine en plein essor de l'IA générative, l'équipe de Nous Research mène une expérience unique : elle utilise des machines réparties dans le monde entier pour pré-entraîner un grand modèle linguistique (LLM) de 1,5 milliard de paramètres. Ce processus évite le développement centralisé traditionnellement réalisé dans des centres de données ou des supercalculateurs coûteux et énergivores.

image.png

Nous Research diffuse en direct ce processus de pré-entraînement sur son site web dédié, distro.nousresearch.com, affichant en temps réel les performances du modèle sur divers benchmarks et fournissant une carte des emplacements matériels participant à l'entraînement, couvrant plusieurs sites aux États-Unis et en Europe. Au moment de la rédaction de cet article, il restait environ 57 heures (soit 2,3 jours) de pré-entraînement, avec plus de 75 % de la formation déjà achevée.

Le pré-entraînement est la première et l'étape la plus fondamentale de l'entraînement d'un LLM. Il consiste à entraîner le modèle sur un vaste ensemble de données textuelles afin d'apprendre les caractéristiques statistiques et la structure du langage. À ce stade, le modèle, en traitant un large éventail de données textuelles, capture les schémas linguistiques, la grammaire et les relations contextuelles entre les mots. Ce processus permet au modèle d'acquérir une compréhension approfondie du langage, de générer du texte cohérent et d'exécuter diverses tâches liées au langage. Après le pré-entraînement, le modèle doit encore être affiné pour des tâches ou des domaines spécifiques.

Si ce projet réussit, Nous Research démontrera qu'il est possible d'entraîner des LLM de pointe sans supercalculateurs coûteux ni transferts à faible latence, marquant ainsi une nouvelle ère pour l'entraînement distribué de l'IA. Cette méthode d'entraînement open source pourrait bouleverser l'équilibre des pouvoirs dans le domaine de l'IA générative, permettant à de petites équipes et à des acteurs non-entreprises d'être plus compétitifs.

La nouvelle technologie utilisée par Nous s'appelle Nous DisTrO (Distributed Training Over-the-Internet). Elle vise à réduire les besoins en bande passante de communication entre les GPU pendant le pré-entraînement. Selon la dernière publication de Nous Research, DisTrO peut réduire ces besoins jusqu'à 10 000 fois, permettant de maintenir un taux de convergence et une courbe de perte compétitifs même avec des connexions Internet plus lentes et plus économiques.

De plus, la principale avancée de DisTrO réside dans la compression efficace du volume de données échangées entre les GPU, sans compromettre les performances du modèle. Cette technologie s'appuie sur l'algorithme d'optimisation de moment découplé (DeMo) antérieur, qui visait également à réduire considérablement les besoins en communication entre les GPU tout en maintenant les performances d'entraînement.

Sur le plan matériel, le processus de pré-entraînement de Nous Research bénéficie du soutien de plusieurs partenaires renommés, notamment Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud et Andromeda Cluster, qui fournissent le matériel hétérogène nécessaire pour tester pleinement les capacités de DisTrO dans un environnement distribué réel.

Lien du blog : https://nousresearch.com/

Points clés :

🌐 Nous Research effectue un entraînement d'IA distribué à l'échelle mondiale pour pré-entraîner un grand modèle linguistique de 1,5 milliard de paramètres.

💻 Grâce à la technologie Nous DisTrO, ce processus réduit considérablement les besoins en bande passante de communication entre les GPU, rendant l'entraînement à faible coût possible.

🤝 Ce projet bénéficie du soutien de plusieurs fournisseurs de matériel, ce qui fait progresser la recherche sur l'IA distribuée.