Cerebras Systems, pionnier du calcul IA hautes performances, a lancé une solution révolutionnaire qui transformera radicalement l'inférence IA. Le 27 août 2024, la société a annoncé le lancement de Cerebras Inference, le service d'inférence IA le plus rapide au monde. Les performances de Cerebras Inference surpassent de loin les systèmes traditionnels basés sur GPU, offrant une vitesse 20 fois supérieure à un coût extrêmement réduit, établissant ainsi une nouvelle référence pour le calcul IA.
Cerebras Inference est particulièrement adapté au traitement de divers modèles d'IA, notamment les modèles de langage volumineux (LLM) en plein essor. Par exemple, avec le dernier modèle Llama 3.1, la version 8B traite 1800 jetons par seconde, tandis que la version 70B traite 450 jetons par seconde. Cette vitesse est non seulement 20 fois supérieure à celle des solutions GPU NVIDIA, mais elle est également beaucoup plus compétitive en termes de prix. Le prix de Cerebras Inference commence à seulement 10 centimes de dollar par million de jetons pour la version 8B et 60 centimes pour la version 70B, soit un rapport qualité-prix 100 fois supérieur aux produits GPU existants.
Il est impressionnant de constater que Cerebras Inference atteint cette vitesse tout en maintenant une précision de pointe dans le secteur. Contrairement à d'autres solutions privilégiant la vitesse, Cerebras effectue toujours l'inférence dans un domaine à 16 bits, garantissant que l'amélioration des performances ne se fait pas au détriment de la qualité des résultats du modèle IA. Miha Hirsh-Smith, PDG de la société d'analyse humaine, a déclaré que Cerebras a établi un nouveau record en atteignant une vitesse supérieure à 1 800 jetons de sortie par seconde sur le modèle Llama 3.1 de Meta.
L'inférence IA est le segment à la croissance la plus rapide du calcul IA, représentant environ 40 % du marché total du matériel IA. Une inférence IA à haute vitesse, comme celle offerte par Cerebras, ouvre de nouvelles opportunités, à l'instar de l'arrivée d'Internet haut débit, et inaugure une nouvelle ère pour les applications IA. Les développeurs peuvent utiliser Cerebras Inference pour construire la prochaine génération d'applications IA nécessitant des performances en temps réel complexes, telles que les agents intelligents et les systèmes intelligents.
Cerebras Inference propose trois niveaux de service à prix abordables : un niveau gratuit, un niveau développeur et un niveau entreprise. Le niveau gratuit offre un accès à l'API avec des limites d'utilisation généreuses, idéal pour un large public. Le niveau développeur propose des options de déploiement sans serveur flexibles, tandis que le niveau entreprise offre des services et une assistance personnalisés aux organisations ayant une charge de travail continue.
Sur le plan technologique, Cerebras Inference utilise le système Cerebras CS-3, alimenté par le Wafer Scale Engine 3 (WSE-3) leader du secteur. Ce processeur IA est inégalé en termes d'échelle et de vitesse, offrant une bande passante mémoire plus de 7 000 fois supérieure à celle du NVIDIA H100.
Cerebras Systems est non seulement à la pointe du calcul IA, mais joue également un rôle important dans divers secteurs, notamment la santé, l'énergie, le secteur public, le calcul scientifique et les services financiers. Grâce à des innovations technologiques constantes, Cerebras aide les organisations de tous les secteurs à relever les défis complexes de l'IA.
Points clés :
🌟 Cerebras Systems offre une vitesse 20 fois supérieure et un prix plus compétitif, inaugurant une nouvelle ère pour l'inférence IA.
💡 Prend en charge tous les types de modèles d'IA, avec des performances exceptionnelles sur les modèles de langage volumineux (LLM).
🚀 Propose trois niveaux de service pour permettre aux développeurs et aux entreprises de choisir facilement.