Dans le domaine de l'entraînement de l'intelligence artificielle, les cartes graphiques Nvidia sont pratiquement inégalées, mais en matière d'inférence IA, les concurrents semblent rattraper leur retard, notamment en termes d'efficacité énergétique. Bien que la nouvelle puce Blackwell de Nvidia soit performante, sa capacité à maintenir son avance reste incertaine.

Aujourd'hui, ML Commons a publié les derniers résultats de sa compétition d'inférence IA : MLPerf Inference v4.1. Cette manche a vu pour la première fois la participation des accélérateurs Instinct d'AMD, des accélérateurs Trillium de Google, des puces de la start-up canadienne UntetherAI et des puces Blackwell de Nvidia. Deux autres entreprises, Cerebras et FuriosaAI, ont présenté de nouvelles puces d'inférence, mais n'ont pas soumis de résultats à MLPerf.

image.png

MLPerf est structuré comme une compétition olympique, avec plusieurs épreuves et sous-épreuves. La catégorie « data center fermé » compte le plus grand nombre de participants. Contrairement à la catégorie ouverte, la catégorie fermée exige des participants qu'ils effectuent des inférences sur un modèle donné sans modifier significativement le logiciel. La catégorie data center teste principalement la capacité de traitement par lots, tandis que la catégorie edge se concentre sur la réduction de la latence.

Chaque catégorie comprend 9 benchmarks différents, couvrant diverses tâches d'IA, notamment la génération d'images populaires (pensez à Midjourney) et les questions-réponses des grands modèles linguistiques (comme ChatGPT), ainsi que des tâches importantes mais moins connues, telles que la classification d'images, la détection d'objets et les moteurs de recommandation.

Cette manche a ajouté un nouveau benchmark : les « modèles mixtes experts ». Il s'agit d'une méthode de déploiement de modèles linguistiques de plus en plus populaire qui consiste à diviser un modèle linguistique en plusieurs petits modèles indépendants, chacun étant affiné pour une tâche spécifique, comme la conversation quotidienne, la résolution de problèmes mathématiques ou l'assistance à la programmation. En affectant chaque requête au petit modèle approprié, l'utilisation des ressources est réduite, ce qui permet de réduire les coûts et d'augmenter le débit, comme l'explique Miroslav Hodak, expert technique senior chez AMD.

image.png

Dans le benchmark populaire « data center fermé », les soumissions basées sur les GPU Nvidia H200 et les superpuces GH200, qui combinent GPU et CPU dans un seul package, ont encore une fois remporté la victoire. Cependant, une analyse plus approfondie des résultats révèle des détails intéressants. Certains participants ont utilisé plusieurs accélérateurs, tandis que d'autres n'en ont utilisé qu'un seul. Si nous normalisons le nombre de requêtes par seconde en fonction du nombre d'accélérateurs et si nous conservons la soumission la plus performante pour chaque type d'accélérateur, les résultats deviennent plus ambigus. Il convient de noter que cette méthode ignore le rôle du CPU et de l'interconnexion.

Sur la base de chaque accélérateur, le Blackwell de Nvidia excelle dans les tâches de questions-réponses des grands modèles linguistiques, avec une vitesse 2,5 fois supérieure à celle des itérations précédentes de la puce. Il s'agit du seul benchmark soumis. La puce préliminaire speedAI240 d'Untether AI a obtenu des performances presque équivalentes à celles du H200 sur sa seule tâche soumise, la reconnaissance d'images. Le Trillium de Google a obtenu des performances légèrement inférieures à celles des H100 et H200 pour la génération d'images, tandis que l'Instinct d'AMD a obtenu des performances équivalentes à celles du H100 pour les questions-réponses des grands modèles linguistiques.

Le succès du Blackwell est en partie dû à sa capacité à exécuter des grands modèles linguistiques avec une précision de 4 bits à virgule flottante. Nvidia et ses concurrents s'efforcent de réduire le nombre de bits dans la représentation des données des modèles transformateurs (tels que ChatGPT) afin d'accélérer les calculs. Nvidia a introduit les mathématiques 8 bits dans le H100, et cette soumission marque la première démonstration des mathématiques 4 bits dans les benchmarks MLPerf.

Le principal défi de l'utilisation de nombres à aussi faible précision est de maintenir la précision, explique Dave Salvator, directeur du marketing produit chez Nvidia. Pour maintenir une grande précision dans la soumission MLPerf, l'équipe Nvidia a apporté de nombreuses innovations logicielles.

De plus, la bande passante mémoire du Blackwell a presque doublé, atteignant 8 téraoctets par seconde, contre 4,8 téraoctets par seconde pour le H200.

La soumission Blackwell de Nvidia utilisait une seule puce, mais Salvator a déclaré qu'elle était conçue pour le réseau et l'extension, et qu'elle offrirait les meilleures performances lorsqu'elle serait utilisée avec l'interconnexion NVLink de Nvidia. Le GPU Blackwell prend en charge jusqu'à 18 connexions NVLink à 100 Go/s, pour une bande passante totale de 1,8 To/s, soit presque le double de la bande passante d'interconnexion du H100.

image.png

Salvator estime qu'avec l'augmentation constante de la taille des grands modèles linguistiques, même l'inférence nécessitera des plates-formes multi-GPU pour répondre à la demande, et le Blackwell est conçu pour cela. « Blackwell est une plateforme », a déclaré Salvator.

Nvidia a soumis son système de puces Blackwell à la sous-catégorie préliminaire, ce qui signifie qu'il n'est pas encore commercialisé, mais devrait être disponible avant la prochaine publication de MLPerf, soit dans environ six mois.

Pour chaque benchmark, MLPerf inclut également une partie de mesure de l'énergie, testant systématiquement la consommation électrique réelle de chaque système lors de l'exécution des tâches. La principale compétition de cette manche (catégorie énergie du data center fermé) n'a vu que deux soumissions : Nvidia et Untether AI. Bien que Nvidia ait participé à tous les benchmarks, Untether n'a soumis de résultats que pour la tâche de reconnaissance d'images.

image.png

Untether AI a excellé dans ce domaine, réussissant à atteindre une efficacité énergétique exceptionnelle. Leurs puces utilisent une méthode appelée « calcul en mémoire ». Les puces d'Untether AI sont constituées d'un ensemble d'unités de mémoire avec de petits processeurs adjacents. Chaque processeur fonctionne en parallèle, traitant simultanément les données dans les unités de mémoire voisines, ce qui réduit considérablement le temps et l'énergie nécessaires pour transférer les données du modèle entre la mémoire et les cœurs de calcul.

« Nous avons constaté que lors de l'exécution de charges de travail d'IA, 90 % de la consommation d'énergie provient du déplacement des données de la DRAM vers les unités de traitement du cache », explique Robert Beachler, vice-président des produits chez Untether AI. « Par conséquent, l'approche d'Untether consiste à déplacer le calcul vers les données, plutôt que de déplacer les données vers l'unité de calcul. »

Cette méthode a été particulièrement performante dans une autre sous-catégorie de MLPerf : edge fermé. Cette catégorie se concentre sur des cas d'utilisation plus pratiques, tels que la détection de machines dans les usines, la robotique guidée par la vision et les véhicules autonomes – des applications qui exigent une efficacité énergétique et un traitement rapide, explique Beachler.

Pour la tâche de reconnaissance d'images, la puce préliminaire speedAI240 d'Untether AI a été 2,8 fois plus rapide que la L40S de Nvidia en termes de latence, et son débit (nombre d'échantillons par seconde) a été 1,6 fois supérieur. La start-up a également soumis des résultats de consommation d'énergie dans cette catégorie, mais les concurrents de Nvidia ne l'ont pas fait, ce qui rend difficile une comparaison directe. Cependant, la consommation électrique nominale de la puce préliminaire speedAI240 d'Untether AI est de 150 W, contre 350 W pour la L40S de Nvidia, ce qui indique un avantage de 2,3 fois en termes de consommation d'énergie, avec des performances de latence supérieures.

Bien que Cerebras et Furiosa n'aient pas participé à MLPerf, ils ont tous deux publié de nouvelles puces. Cerebras a dévoilé son service d'inférence lors de la conférence IEEE Hot Chips à l'université de Stanford. Cerebras, basée à Sunnyvale, en Californie, fabrique des puces gigantesques, aussi grandes que le permettent les plaquettes de silicium, éliminant ainsi les interconnexions entre les puces et augmentant considérablement la bande passante mémoire de l'appareil, principalement pour l'entraînement de réseaux neuronaux géants. Ils ont maintenant mis à niveau leur dernier ordinateur CS3 pour prendre en charge l'inférence.

Bien que Cerebras n'ait pas soumis de résultats à MLPerf, la société affirme que sa plateforme surpasse le H100 de 7 fois et la puce concurrente Groq de 2 fois en termes de nombre de jetons LLM générés par seconde. « Aujourd'hui, nous sommes à l'ère de la composition de l'IA générative », a déclaré Andrew Feldman, PDG et co-fondateur de Cerebras. « Cela est dû à l'existence d'un goulot d'étranglement de la bande passante mémoire. Qu'il s'agisse du H100 de Nvidia, du MI300 d'AMD ou du TPU, ils utilisent tous la même mémoire externe, ce qui entraîne les mêmes limitations. Nous avons brisé cet obstacle grâce à notre conception au niveau de la plaquette. »

Lors de la conférence Hot Chips, Furiosa, basée à Séoul, a également présenté sa puce de deuxième génération RNGD (prononcé « rebel »). La nouvelle puce de Furiosa se caractérise par son architecture de processeur de contraction tensorielle (TCP). Dans les charges de travail d'IA, la fonction mathématique de base est la multiplication matricielle, généralement implémentée comme un primitif dans le matériel. Cependant, la taille et la forme des matrices, c'est-à-dire les tenseurs plus généraux, peuvent varier considérablement. Le RNGD implémente cette multiplication tensorielle plus générale comme un primitif. « Lors de l'inférence, la taille des lots varie considérablement, il est donc essentiel d'exploiter pleinement le parallélisme inhérent et la réutilisation des données de la forme du tenseur donné », a déclaré June Paik, fondatrice et PDG de Furiosa, lors de la conférence Hot Chips.

Bien que Furiosa n'ait pas participé à MLPerf, ils ont comparé en interne la puce RNGD au benchmark de résumé LLM de MLPerf, obtenant des performances comparables à celles de la puce L40S de Nvidia, mais avec une consommation d'énergie de seulement 185 W, contre 320 W pour la L40S. Paik a indiqué que les performances augmenteraient avec des optimisations logicielles supplémentaires.

IBM a également annoncé le lancement de sa nouvelle puce Spyre, conçue pour les charges de travail d'IA générative d'entreprise, qui devrait être lancée au premier trimestre 2025.

Il est clair que le marché des puces d'inférence IA sera très animé dans un avenir prévisible.

Références : https://spectrum.ieee.org/new-inference-chips