DeepSeekは、最新の巨大言語モデルDeepSeek-V3-0324を静かにリリースし、AI業界に大きな反響を呼び起こしました。容量641GBというこのモデルは、事前にほとんど宣伝されることなくAIモデルリポジトリHugging Faceに登場し、同社の控えめながらも影響力のあるリリーススタイルを踏襲しています。
性能の大躍進、Claude Sonnet3.5に匹敵
DeepSeek-V3のリリースが注目を集めるのは、その強力な機能だけでなく、展開方法とライセンス契約にもあります。初期のテストユーザーは、新モデルがすべての指標で大幅な進歩を遂げたと報告しています。
AI研究者のXeophon氏はXプラットフォームで、DeepSeek V3が内部テストにおいて「すべてのテスト、すべての指標で飛躍的な進歩」を示し、「最高の非推論モデルであり、Sonnet3.5に取って代わる」と主張しました。この主張が広く検証されれば、DeepSeekの新モデルは、Anthropicの高く評価されている商用AIシステムClaude Sonnet3.5を凌駕することになります。
オープンソースで商用利用可能、誰もが利用可能に:課金壁の打破
Sonnetのようにサブスクリプションが必要なモデルとは異なり、DeepSeek-V3-0324のモデルウェイトは完全に無料で、誰でもダウンロードして使用できます。
さらに重要なのは、このモデルがMITライセンスを採用していることです。つまり、商用利用も自由にできます。このオープンな姿勢は、西側のAI企業が通常モデルを課金壁の後ろに置くという慣習とは対照的です。
MoEアーキテクチャと2つの大きなブレークスルー
DeepSeek V3-0324の画期的なアーキテクチャは、比類のない効率を実現しています。このモデルは混合専門家(MoE)アーキテクチャを採用しており、巨大言語モデルの動作方法を根本的に変えています。従来のモデルがすべてのタスクで全てのパラメータを活性化するのに対し、DeepSeekのアプローチは特定のタスクで6850億個のパラメータのうち約370億個のみを活性化します。この選択的な活性化は、モデル効率の大きな転換を表しており、計算需要を大幅に削減しながら、より大きな完全に活性化されたモデルと同等の性能を実現しています。
さらに、このモデルにはマルチヘッド潜在的アテンション(MLA)とマルチトークン予測(MTP)という2つの追加の画期的な技術が統合されています。MLAは、モデルが長文でコンテキストを維持する能力を高め、MTPは通常の一度に1トークン生成ではなく、一度に複数のトークンを生成できます。これらの革新により、出力速度が約80%向上しました。
ハードウェアフレンドリー、ローカル実行:一般消費者向けデバイスでも動作可能
開発者ツールの作成者であるSimon Willison氏はブログ記事で、4ビット量子化バージョンではストレージ容量が352GBに削減され、ハイエンドの一般消費者向けハードウェア(M3 Ultraチップ搭載のMac Studioなど)での実行が可能になると指摘しています。
AI研究者のAwni Hannun氏はソーシャルメディアで、「新しいDeepSeek-V3-0324は、mlx-lm搭載の512GB M3 Ultra上で>20トークン/秒で動作します!」と書いています。「一般消費者向けハードウェア」の定義を超える可能性のある9499ドルのMac Studioではありますが、このような大規模なモデルをローカルで実行できることは、通常はデータセンターレベルのAIインフラストラクチャを必要とする最新のAIとは対照的です。
Mac Studioの推論時の消費電力は200ワット未満ですが、従来のAIインフラストラクチャは通常、数キロワットの電力を消費する複数のNvidia GPUに依存しています。
スタイルの変化、より技術的な方向へ
初期のユーザーは、新モデルのコミュニケーションスタイルに顕著な変化があったと報告しています。以前のDeepSeekモデルは、会話的で人間のような口調で称賛されていましたが、「V3-0324」はよりフォーマルで技術的なスタイルになっています。
Redditでは、この変化について、新バージョンは「人間らしくない」と聞こえ、以前のバージョンにあった「人間のような口調」を失ったという意見がいくつか表明されています。この変化は、モデルをより専門的で技術的な用途に再配置することを目的とした、DeepSeekエンジニアの意識的な設計上の選択を反映している可能性があります。
DeepSeekのリリース戦略は、AIビジネスにおける中国と西側の企業の根本的な違いを示しています。OpenAIやAnthropicなどのアメリカのリーダーはモデルを課金壁の後ろに置いていますが、中国のAI企業は、より寛大なオープンソースライセンスを採用する傾向が強まっています。
このオープン性は、中国のAIエコシステムを急速に変化させており、スタートアップ、研究者、開発者が大量の資本支出をすることなく、高度なAI技術を基盤としたイノベーションを行うことができるようになっています。百度、阿里巴巴、騰訊などの中国のテクノロジー大手も、オープンソースAIモデルのリリースまたはリリース計画を発表しています。最先端のNvidiaチップの入手が制限されている状況下では、中国企業は効率と最適化を重視しており、それが潜在的な競争優位性となっています。
DeepSeek-V3-0324のリリースは、次世代の推論モデルDeepSeek-R2の基礎となるものと見なされています。
NvidiaのCEOであるジェンスン・フアン氏が最近、DeepSeekのR1モデルは「非推論AIよりも100倍多くの計算量を消費する」と指摘したことを考慮すると、DeepSeekがリソースが限られた状況でこのような性能を実現していることは注目に値します。
DeepSeek-R2がR1の発展軌道に従うならば、OpenAIが発表すると噂されているGPT-5に直接挑戦する可能性があります。DeepSeekのオープンでリソース効率の高い戦略と、OpenAIの閉鎖的で資金力のある戦略は、人工知能の未来における2つの競合するビジョンを表しています。
現在、ユーザーはHugging Faceから完全なモデルウェイトをダウンロードしたり、OpenRouterなどのプラットフォームを通じてDeepSeek-V3-0324のAPIインターフェースを利用したりできます。DeepSeek独自のチャットインターフェースも新バージョンに更新されている可能性があります。DeepSeekのオープン戦略は、グローバルなAIの状況を再定義しており、よりオープンで普及したAIイノベーションの時代の到来を予感させます。
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324