世界最速AI推論サービスが登場！速度20倍向上、コスト大幅削減

AI計算分野のパイオニアであるCerebras Systems社が、AI推論を根本から変革する画期的なソリューションを発表しました。2024年8月27日、同社は世界最速のAI推論サービス「Cerebras Inference」を発表しました。Cerebras Inferenceは、GPUベースの従来システムをはるかに凌駕する性能を示し、20倍の速度を低コストで実現、AI計算の新たな基準を打ち立てました。

Cerebras Inferenceは、あらゆる種類のAIモデル、特に急速に発展している大規模言語モデル（LLM）に最適です。最新のLlama 3.1モデルを例にとると、8Bバージョンでは毎秒1800トークン、70Bバージョンでは毎秒450トークンを処理できます。この速度はNVIDIA GPUソリューションの20倍であり、価格競争力も優れています。Cerebras Inferenceの価格は、100万トークンあたりわずか10セントから（70Bバージョンは60セント）で、既存のGPU製品と比較して100倍のコストパフォーマンスを実現しています。

特筆すべきは、Cerebras Inferenceが業界トップレベルの精度を維持しながら、この速度を実現している点です。速度を優先する他のソリューションとは異なり、Cerebrasは常に16ビット精度で推論を行い、性能向上によってAIモデルの出力品質が犠牲になることはありません。人工知能分析企業のCEOであるミハ・ヒル・スミス氏は、CerebrasがMetaのLlama 3.1モデルで毎秒1800トークンを超える出力速度を達成し、新記録を樹立したと述べています。

AI推論はAI計算の中で最も急速に成長している分野であり、AIハードウェア市場全体の約40％を占めています。Cerebrasが提供するような高速AI推論は、ブロードバンドインターネットの登場のように、新たな機会を開き、AIアプリケーションの新たな時代を切り開きます。開発者はCerebras Inferenceを利用して、インテリジェントエージェントやインテリジェントシステムなど、複雑なリアルタイム性能を必要とする次世代AIアプリケーションを構築できます。

Cerebras Inferenceは、無料層、開発者層、エンタープライズ層の3つの価格設定が合理的で分かりやすいサービスレベルを提供しています。無料層はAPIアクセスを提供し、使用制限も寛大で、幅広いユーザーに最適です。開発者層は柔軟なサーバーレス展開オプションを提供し、エンタープライズ層は継続的な負荷を持つ組織向けにカスタムサービスとサポートを提供します。

基盤技術としては、Cerebras Inferenceは業界をリードするWafer Scale Engine 3（WSE-3）を搭載したCerebras CS-3システムを採用しています。このAIプロセッサは、規模と速度において比類がなく、NVIDIA H100と比較して7000倍以上のメモリ帯域幅を提供します。

Cerebras Systems社は、AI計算分野をリードするだけでなく、医療、エネルギー、政府、科学計算、金融サービスなど、多くの業界で重要な役割を果たしています。継続的な技術革新を通じて、Cerebrasはあらゆる分野の組織が複雑なAIの課題に対処する支援をしています。

ポイント：
🌟 Cerebras Systemsのサービスは速度が20倍向上し、価格競争力も高く、AI推論の新時代を開きます。
💡あらゆる種類のAIモデルをサポートし、特に大規模言語モデル（LLM）で優れた性能を発揮します。
🚀 3つのサービスレベルを提供し、開発者と企業ユーザーが柔軟に選択できます。