中国の人工知能企業DeepSeekは先日、画期的なオープンソースの大規模言語モデルDeepSeek V3を発表しました。6710億パラメータを持つこのモデルは、MetaのLlama 3.1を規模で上回り、GPT-4を含む主要なクローズドソースモデルを凌駕する性能を複数のベンチマークテストで示しました。
DeepSeek V3の顕著な特徴は、その強力な性能と効率的な開発プロセスです。プログラミングプラットフォームCodeforcesのコンテストで優れた成績を収め、コード統合能力をテストするAider Polyglotテストでも競合他社をリードしました。モデルのトレーニングには14.8兆トークンの膨大なデータセットが使用され、パラメータ数はLlama 3.1の1.6倍に達します。
さらに注目すべきは、DeepSeekがわずか2ヶ月、550万ドルの費用でモデルのトレーニングを完了したことでしょう。これは同種の製品開発費用をはるかに下回ります。
DeepSeekを支援しているのは、中国のクオンツヘッジファンドHigh-Flyer Capital Managementです。同ファンドは、1万個のNvidia A100 GPUを搭載し、約1億3800万ドル相当のサーバークラスタを構築しました。High-Flyerの創設者である梁文峰氏は、オープンソースAIが現在のクローズドモデルの独占状態を打破すると述べています。
DeepSeek V3は緩やかなライセンスで公開されており、開発者はダウンロード、修正、商業利用を含むあらゆる用途に使用できます。完全版の動作には依然として強力なハードウェアが必要ですが、このオープンソースモデルの公開は、AI分野におけるオープンイノベーションが大きく前進したことを示しています。