Récemment, la société de recherche en intelligence artificielle Epoch AI a publié un simulateur interactif conçu pour modéliser les capacités de calcul nécessaires à l’entraînement de grands modèles de langage. Grâce à ce simulateur, les chercheurs ont découvert qu’il était possible d’entraîner GPT-4 avec de vieilles cartes graphiques de 2012 (comme la GTX580), mais que cela coûterait dix fois plus cher qu’avec du matériel moderne.

image.png

L’étude d’Epoch AI montre que le nombre d’opérations en virgule flottante (FLOP) nécessaires à l’entraînement de GPT-4 se situe entre 1e25 et 1e26. Pour mener cette recherche, le simulateur a analysé l’efficacité de différentes cartes graphiques, notamment leur performance lorsque la taille du modèle augmente. Les résultats indiquent que l’efficacité diminue généralement avec la croissance du modèle. Par exemple, la carte graphique H100, sortie récemment, maintient une efficacité élevée sur une plus longue période, tandis que la carte V100 voit son efficacité chuter plus nettement face à des entraînements plus importants.

Dans les expériences d’Epoch AI, la carte graphique GTX580 ne disposait que de 3 Go de mémoire. Cette carte était un choix courant en 2012 pour entraîner le modèle AlexNet. Malgré les progrès technologiques, les chercheurs estiment qu’il est possible d’effectuer un entraînement à si grande échelle avec du matériel ancien, mais que les ressources et les coûts seraient extrêmement élevés.

De plus, ce simulateur permet de simuler des entraînements complexes répartis sur plusieurs centres de données. Les utilisateurs peuvent personnaliser des paramètres tels que la taille, la latence et la bande passante de connexion des centres de données afin de simuler des exécutions d’entraînement sur plusieurs sites. Cet outil permet également d’analyser les différences de performance entre les cartes graphiques modernes (comme les H100 et A100), d’étudier les effets de différentes tailles de lots et de l’entraînement multi-GPU, et de générer des fichiers journaux détaillés enregistrant les sorties du modèle.

Epoch AI indique que le développement de ce simulateur vise à approfondir la compréhension de l’amélioration de l’efficacité du matériel et à évaluer l’impact des contrôles à l’exportation des puces. Avec l’augmentation prévue des tâches d’entraînement à grande échelle au cours de ce siècle, il est crucial de comprendre les besoins matériels futurs.

Points clés :

💻 Une carte graphique GTX580 sortie en 2012 peut entraîner GPT-4, mais avec une efficacité faible et un coût dix fois supérieur.  

📊 Le simulateur permet d’analyser les différences de performance entre différents GPU et prend en charge la simulation d’entraînement sur plusieurs centres de données.  

🔍 Cette étude vise à améliorer la compréhension des besoins matériels futurs pour faciliter l’entraînement de grands modèles d’IA.