最近、オープンソースプラットフォームHugging FaceとNVIDIAは、エキサイティングな新サービス「推理即サービス(Inference-as-a-Service)」を発表しました。このサービスはNVIDIAのNIMテクノロジーによって実現します。開発者はこの新サービスを利用することで、Hugging Face Hubで提供されているオープンソースAIモデルのプロトタイプ作成、使用、そして効率的なデプロイを迅速に行えるようになります。

image.png

この発表は、現在開催中のSIGGRAPH2024カンファレンスで行われました。このカンファレンスは、コンピュータグラフィックスとインタラクティブテクノロジーの専門家が多数集まる場であり、NVIDIAとHugging Faceの連携は、開発者にとって新たな機会をもたらします。このサービスにより、開発者はLlama2やMistral AIモデルなどの強力な大規模言語モデル(LLM)を簡単にデプロイでき、NVIDIAのNIMマイクロサービスがこれらのモデルを最適化します。

具体的には、NIM形式でアクセスした場合、70億パラメーターのLlama3モデルの処理速度は、標準的なNVIDIA H100 Tensor Core GPUシステムにデプロイした場合と比較して5倍向上します。これは大きな進歩です。さらに、この新サービスは「DGX Cloudでのトレーニング」(Train on DGX Cloud)にも対応しており、現在Hugging Faceで提供されています。

NVIDIAのNIMは、NVIDIAのAI基礎モデルとオープンソースコミュニティモデルを網羅した、推論に最適化されたAIマイクロサービスです。標準APIを通じてトークン処理効率を大幅に向上させ、NVIDIA DGX Cloudのインフラストラクチャを強化することで、AIアプリケーションの応答速度と安定性を向上させます。

NVIDIA DGX Cloudプラットフォームは、生成AI向けに特別に設計されており、信頼性が高く高速な計算インフラストラクチャを提供します。開発者は、長期的なコミットメントなしに、プロトタイプから本番環境への移行をスムーズに行えます。Hugging FaceとNVIDIAの連携は、開発者コミュニティをさらに強化します。Hugging Faceは最近、チームが黒字化し、チーム規模が220人に達し、SmolLMシリーズの小型言語モデルを発表したことも発表しました。

要点:

🌟 Hugging FaceとNVIDIAが推理即サービスを発表。AIモデルのトークン処理効率が5倍向上。

🚀 新サービスは、強力なLLMモデルの迅速なデプロイをサポートし、開発プロセスを最適化。

💡 NVIDIA DGX Cloudプラットフォームは、生成AI向けに高速なインフラストラクチャを提供し、開発者の生産プロセスを簡素化。