AI計算のスタートアップ企業であるCerebras Systems Inc.は、自社が「世界最速のAI推論サービス」と呼ぶサービスを正式に発表しました。これは、業界の巨人であるNvidia Corp.への直接的な挑戦と言えるでしょう。CerebrasのCEOであるアンドリュー・フェルドマン氏は、この新サービスは、AI推論タスクをより高速かつ低コストで実行することを目指しており、効率的な推論ソリューションへの市場の需要の高まりに応えるものだと述べています。
Cerebrasの「高速推論」サービスは、強力なWSE-3プロセッサを基盤としています。このプロセッサは90万個以上の計算コアと44GBのオンボードメモリを搭載しており、コア数はNvidia H100 GPUの52倍です。Cerebrasは、推論サービスの速度は毎秒1,000トークンに達し、Nvidiaの最も強力なGPUを使用した同等のクラウドサービスよりも20倍高速であると主張しています。さらに注目すべきは、このサービスの価格は100万トークンあたりわずか10セントからで、既存のAI推論ワークロードの費用対効果を100倍上回るとされています。
Cerebrasの推論サービスは、無料サービス、開発者向けレイヤー、エンタープライズ向けレイヤーの3つのアクセスレベルを提供しています。開発者向けレイヤーはAPIエンドポイントを介してアクセスでき、Llama3.18Bモデルの場合は100万トークンあたり10セント、Llama3.170Bモデルの場合は60セントです。エンタープライズ向けレイヤーは、より多くのカスタマイズオプションと専門的なサポートを提供し、継続的なワークロードに適しています。
グラクソ・スミスクライン、Perplexity AI Inc.、Meter Inc.など、多くの著名な機関がCerebrasの初期顧客となっています。DeepLearning AI Inc.の創設者であるAndrew Ng博士は、Cerebrasの高速推論能力を高く評価し、大規模言語モデルを繰り返しプロンプトする必要があるエージェントAIワークフローに特に役立つと述べています。
推論サービスに加えて、Cerebrasは顧客に包括的なAI開発ツールを提供することを目的とした、複数の戦略的パートナーシップを発表しました。パートナーには、LangChain、LlamaIndex、Docker Inc.、Weights & Biases Inc.、AgentOps Inc.などがあります。さらに、Cerebrasの推論APIはOpenAIのチャット補完APIと完全に互換性があるため、既存のアプリケーションを簡単にプラットフォームに移行できます。