NVIDIAとHugging Face、高効率推論サービスを発表、AIモデルのトークン処理速度を5倍向上

AIbase基地

公開日AIニュース · 1 分で読めます · Jul 30, 2024

222

最近、オープンソースプラットフォームHugging FaceとNVIDIAは、エキサイティングな新サービス「推理即サービス（Inference-as-a-Service）」を発表しました。このサービスはNVIDIAのNIMテクノロジーによって実現します。開発者はこの新サービスを利用することで、Hugging Face Hubで提供されているオープンソースAIモデルのプロトタイプ作成、使用、そして効率的なデプロイを迅速に行えるようになります。

この発表は、現在開催中のSIGGRAPH2024カンファレンスで行われました。このカンファレンスは、コンピュータグラフィックスとインタラクティブテクノロジーの専門家が多数集まる場であり、NVIDIAとHugging Faceの連携は、開発者にとって新たな機会をもたらします。このサービスにより、開発者はLlama2やMistral AIモデルなどの強力な大規模言語モデル（LLM）を簡単にデプロイでき、NVIDIAのNIMマイクロサービスがこれらのモデルを最適化します。

具体的には、NIM形式でアクセスした場合、70億パラメーターのLlama3モデルの処理速度は、標準的なNVIDIA H100 Tensor Core GPUシステムにデプロイした場合と比較して5倍向上します。これは大きな進歩です。さらに、この新サービスは「DGX Cloudでのトレーニング」（Train on DGX Cloud）にも対応しており、現在Hugging Faceで提供されています。

NVIDIAのNIMは、NVIDIAのAI基礎モデルとオープンソースコミュニティモデルを網羅した、推論に最適化されたAIマイクロサービスです。標準APIを通じてトークン処理効率を大幅に向上させ、NVIDIA DGX Cloudのインフラストラクチャを強化することで、AIアプリケーションの応答速度と安定性を向上させます。

NVIDIA DGX Cloudプラットフォームは、生成AI向けに特別に設計されており、信頼性が高く高速な計算インフラストラクチャを提供します。開発者は、長期的なコミットメントなしに、プロトタイプから本番環境への移行をスムーズに行えます。Hugging FaceとNVIDIAの連携は、開発者コミュニティをさらに強化します。Hugging Faceは最近、チームが黒字化し、チーム規模が220人に達し、SmolLMシリーズの小型言語モデルを発表したことも発表しました。

要点:
🌟 Hugging FaceとNVIDIAが推理即サービスを発表。AIモデルのトークン処理効率が5倍向上。
🚀 新サービスは、強力なLLMモデルの迅速なデプロイをサポートし、開発プロセスを最適化。
💡 NVIDIA DGX Cloudプラットフォームは、生成AI向けに高速なインフラストラクチャを提供し、開発者の生産プロセスを簡素化。

大規模言語モデルの効率を1.7倍に向上：バイトダンスのCOMET技術がオープンソース化

バイトダンス傘下の豆包大規模言語モデルチームは先日、混合専門家モデル（MoE）アーキテクチャにおける主要なボトルネックを克服し、COMETという名称の重要な最適化技術をオープンソース化したと発表しました。この技術は、大規模言語モデルのトレーニング効率を大幅に向上させ、最大1.7倍の効率向上を実現し、トレーニングコストを40％削減することに成功しました。画像注記：画像はAIによって生成され、画像ライセンス提供サービスMidjourneyを使用しています。COMET技術は、バイトダンスの万規模GPUクラスタトレーニングで実際に適用されており、数百万GPU時間の節約に貢献しています。

智元、家庭用ロボットベースの大規模言語モデルGO-1を発表成功率が大幅に向上

3月10日、智元ロボットは、初の汎用具象ベースの大規模言語モデルであるGenie Operator-1（GO-1と略称）を発表しました。この発表は大きな注目を集め、特に家庭用サービスロボットの可能性という点において、将来の家事管理に新たな希望をもたらすものとして期待されています。智元ロボットの公式発表によると、GO-1大規模言語モデルは大量の人間のビデオ学習を通じて、コップの水を運ぶ、食事を作る、客を迎えるなど、多くの家事タスクをこなす優れた能力を示しています。技術性能に関しては、

国家スパコンインターネットプラットフォームが阿里巴巴の千問大規模言語モデルに接続、QwQ-32B APIを提供開始

報道によると、国家スパコンインターネットプラットフォームは阿里巴巴の通義千問大規模言語モデルへの接続を発表し、千問QwQ-32B APIサービスの正式提供を開始しました。本サービスを利用するユーザーは、最大100万トークンを無料で利用でき、多くの開発者や研究者にとって絶好の機会となります。千問QwQ-32Bは阿里巴巴通義チームが最近オープンソース化した推論モデルであり、優れた性能を誇ります。複数の権威ある評価データによると、千問QwQ-32Bの能力は「フルバージョン」の671Bと匹敵します。