À l'heure où l'intelligence artificielle connaît un développement fulgurant, une entreprise nommée Etched mise tout sur une architecture IA appelée Transformer. Elle a récemment annoncé le lancement de Sohu, la première puce ASIC (circuit intégré spécifique à une application) au monde conçue spécifiquement pour les Transformers. Elle affirme que ses performances surpassent de loin celles de tous les GPU actuellement sur le marché et qu'elle révolutionnera le domaine de l'IA.

image.png

L'architecture Transformer domine le secteur de l'IA

En 2022, Etched a fait une prédiction audacieuse : l'architecture Transformer dominerait le monde de l'IA. Il s'avère qu'ils avaient raison. Aujourd'hui, de ChatGPT à Sora, de Gemini à Stable Diffusion 3, tous les modèles d'IA les plus avancés utilisent l'architecture Transformer. C'est sur cette conviction qu'Etched a passé deux ans à développer la puce Sohu.

La puce Sohu réalise des améliorations de performances sans précédent en intégrant directement l'architecture Transformer dans le matériel. Cela signifie que Sohu ne peut pas exécuter la plupart des modèles d'IA traditionnels, tels que le DLRM derrière les publicités Instagram, le modèle de pliage de protéines AlphaFold 2 ou les premiers modèles d'images Stable Diffusion 2. Cependant, pour les modèles Transformer, Sohu est bien plus rapide que toute autre puce.

Avantage de performance significatif

Selon Etched, un serveur équipé de 8 puces Sohu peut traiter plus de 500 000 jetons par seconde lors de l'exécution du modèle Llama 70B. Ces performances sont supérieures d'un ordre de grandeur à celles du prochain GPU Blackwell (B200) de Nvidia, et ce à un coût inférieur.

Plus précisément, un serveur 8xSohu peut remplacer 160 GPU H100. Cela signifie que l'utilisation de la puce Sohu permet de réduire considérablement les coûts d'exécution des modèles d'IA, tout en améliorant considérablement la vitesse de traitement.

La logique derrière le pari

La décision d'Etched de miser si fermement sur l'architecture Transformer repose sur une profonde compréhension des tendances de l'IA. L'entreprise estime que la mise à l'échelle est la clé pour atteindre une intelligence surhumaine. Au cours des cinq dernières années, les modèles d'IA ont surpassé les humains dans la plupart des tests standardisés, principalement grâce à une augmentation significative de la puissance de calcul. Par exemple, les ressources informatiques utilisées par Meta pour entraîner le modèle Llama 400B étaient 50 000 fois supérieures à celles utilisées par OpenAI pour entraîner GPT-2.

Cependant, la poursuite de la mise à l'échelle pose d'énormes défis. Le coût des centres de données de nouvelle génération pourrait dépasser le PIB d'un petit pays. Au rythme actuel de développement, notre matériel, nos réseaux électriques et nos capacités financières peinent à suivre. C'est là que la puce Sohu entre en jeu.

image.png

La nécessité des puces spécialisées

Etched estime qu'avec le ralentissement de la loi de Moore, la seule façon d'améliorer les performances est la spécialisation. Avant que l'architecture Transformer ne domine le secteur de l'IA, de nombreuses entreprises ont développé des puces IA et des GPU polyvalents pour faire face à différentes architectures. Mais maintenant, avec la demande d'inférence Transformer qui passe de quelque 50 millions de dollars à plusieurs milliards de dollars, et la convergence des architectures de modèles d'IA, l'émergence de puces spécialisées est devenue inévitable.

Lorsque le coût d'entraînement d'un modèle atteint 1 milliard de dollars et que le coût d'inférence dépasse 10 milliards de dollars, même une amélioration des performances de 1 % suffit à justifier un projet de puce personnalisée de 50 à 100 millions de dollars. En réalité, l'avantage de performance des ASIC est bien supérieur.

Fonctionnement de la puce Sohu

La puce Sohu atteint des performances aussi élevées grâce à son optimisation spécifique pour l'architecture Transformer. En supprimant la majeure partie de la logique de contrôle de flux, Sohu peut accueillir davantage d'unités de calcul mathématiques. Cela permet à Sohu d'atteindre un taux d'utilisation des FLOPS supérieur à 90 %, tandis que le taux d'utilisation lors de l'exécution de TRT-LLM sur un GPU est d'environ 30 % seulement.

Etched explique que, étant donné qu'une grande partie de la surface d'un GPU est consacrée à garantir la programmabilité, une conception spécifique aux Transformers permet d'intégrer davantage d'unités de calcul. En fait, sur les 80 milliards de transistors du GPU H100, seulement 3,3 % sont utilisés pour la multiplication matricielle. En se concentrant sur les Transformers, Sohu peut intégrer davantage de FLOPS sur la puce, sans avoir à réduire la précision ni à utiliser des techniques de sparsité.

Écosystème logiciel

Bien que la puce Sohu représente une avancée majeure au niveau du matériel, l'écosystème logiciel est tout aussi crucial. Par rapport aux GPU et aux TPU, le développement logiciel de Sohu est relativement simple, car il ne nécessite qu'une prise en charge de l'architecture Transformer. Etched s'engage à rendre open source tous les logiciels, des pilotes aux noyaux en passant par la pile de services, ce qui facilitera grandement l'utilisation et l'optimisation de la puce Sohu par les développeurs.

Perspectives d'avenir

Si le pari d'Etched réussit, la puce Sohu pourrait bouleverser le secteur de l'IA. Actuellement, de nombreuses applications d'IA sont confrontées à des goulots d'étranglement en termes de performances. Par exemple, Gemini met plus de 60 secondes pour répondre à une question sur une vidéo, les agents de codage coûtent plus cher que les ingénieurs logiciels et mettent des heures à accomplir des tâches, et les modèles vidéo ne peuvent générer qu'une image par seconde.

La puce Sohu pourrait multiplier par 20 la vitesse des modèles d'IA, tout en réduisant considérablement les coûts. Cela permettrait des applications telles que la génération vidéo en temps réel, les appels, les agents intelligents et la recherche. Etched a commencé à accepter les demandes d'accès anticipé à son service cloud pour développeurs Sohu et recrute activement des talents pour rejoindre son équipe.

Les percées en matière de puissance de calcul de l'IA pourraient avoir des conséquences considérables, et la puce Sohu d'Etched mérite certainement notre attention. Avec la publication de plus amples détails et le déploiement d'applications concrètes, nous pourrons mieux évaluer le potentiel de cette technologie et son impact sur le domaine de l'IA.