Récemment, la plateforme open source Hugging Face et NVIDIA ont annoncé un nouveau service enthousiasmant : l’inférence en tant que service (Inference-as-a-Service), propulsé par la technologie NIM de NVIDIA. Ce nouveau service permettra aux développeurs de prototyper plus rapidement, d’utiliser les modèles d’IA open source disponibles sur Hugging Face Hub et de les déployer efficacement.
Cette annonce a été faite lors de la conférence SIGGRAPH 2024, qui rassemble de nombreux experts en infographie et technologies interactives. La collaboration entre NVIDIA et Hugging Face, dévoilée à cette occasion, offre de nouvelles opportunités aux développeurs. Grâce à ce service, les développeurs peuvent facilement déployer de puissants modèles linguistiques de grande taille (LLM), tels que Llama2 et les modèles Mistral AI, optimisés par les microservices NIM de NVIDIA.
Plus précisément, lorsqu’il est accédé sous forme de NIM, un modèle Llama3 de 7 milliards de paramètres est cinq fois plus rapide que lorsqu’il est déployé sur un système standard de GPU NVIDIA H100 Tensor Core. C’est une amélioration considérable. De plus, ce nouveau service prend en charge « l’entraînement sur DGX Cloud », un service désormais disponible sur Hugging Face.
NIM de NVIDIA est un ensemble de microservices d’IA optimisés pour l’inférence, couvrant les modèles d’IA de base de NVIDIA et les modèles de la communauté open source. Il améliore considérablement l’efficacité du traitement des jetons via des API standard et renforce les infrastructures de NVIDIA DGX Cloud, accélérant la vitesse de réponse et la stabilité des applications d’IA.
La plateforme NVIDIA DGX Cloud est spécialement conçue pour l’IA générative, offrant une infrastructure de calcul fiable et accélérée pour aider les développeurs tout au long du processus, de la phase de prototype à la production, sans engagement à long terme. La collaboration entre Hugging Face et NVIDIA renforcera davantage la communauté des développeurs. Hugging Face a d’ailleurs récemment annoncé que son équipe était devenue rentable, qu’elle comptait 220 personnes et qu’elle avait lancé la série de petits modèles linguistiques SmolLM.
Points clés :
🌟 Hugging Face et NVIDIA lancent l’inférence en tant que service, améliorant l’efficacité du traitement des jetons des modèles d’IA de cinq fois.
🚀 Le nouveau service prend en charge le déploiement rapide de puissants modèles LLM, optimisant le processus de développement.
💡 La plateforme NVIDIA DGX Cloud fournit une infrastructure accélérée pour l’IA générative, simplifiant le processus de production pour les développeurs.