オープンソースAIの新たな高みへ：DeepSeek V3がLlama3.1を凌駕、14.8兆トークンの訓練データ

AIbase基地

公開日AIニュース · 1 分で読めます · Dec 27, 2024

296

中国の人工知能企業DeepSeekは先日、画期的なオープンソースの大規模言語モデルDeepSeek V3を発表しました。6710億パラメータを持つこのモデルは、MetaのLlama 3.1を規模で上回り、GPT-4を含む主要なクローズドソースモデルを凌駕する性能を複数のベンチマークテストで示しました。

DeepSeek V3の顕著な特徴は、その強力な性能と効率的な開発プロセスです。プログラミングプラットフォームCodeforcesのコンテストで優れた成績を収め、コード統合能力をテストするAider Polyglotテストでも競合他社をリードしました。モデルのトレーニングには14.8兆トークンの膨大なデータセットが使用され、パラメータ数はLlama 3.1の1.6倍に達します。

AIロボット　人工知能 (2)

さらに注目すべきは、DeepSeekがわずか2ヶ月、550万ドルの費用でモデルのトレーニングを完了したことでしょう。これは同種の製品開発費用をはるかに下回ります。

DeepSeekを支援しているのは、中国のクオンツヘッジファンドHigh-Flyer Capital Managementです。同ファンドは、1万個のNvidia A100 GPUを搭載し、約1億3800万ドル相当のサーバークラスタを構築しました。High-Flyerの創設者である梁文峰氏は、オープンソースAIが現在のクローズドモデルの独占状態を打破すると述べています。

DeepSeek V3は緩やかなライセンスで公開されており、開発者はダウンロード、修正、商業利用を含むあらゆる用途に使用できます。完全版の動作には依然として強力なハードウェアが必要ですが、このオープンソースモデルの公開は、AI分野におけるオープンイノベーションが大きく前進したことを示しています。

大規模言語モデルの効率を1.7倍に向上：バイトダンスのCOMET技術がオープンソース化

バイトダンス傘下の豆包大規模言語モデルチームは先日、混合専門家モデル（MoE）アーキテクチャにおける主要なボトルネックを克服し、COMETという名称の重要な最適化技術をオープンソース化したと発表しました。この技術は、大規模言語モデルのトレーニング効率を大幅に向上させ、最大1.7倍の効率向上を実現し、トレーニングコストを40％削減することに成功しました。画像注記：画像はAIによって生成され、画像ライセンス提供サービスMidjourneyを使用しています。COMET技術は、バイトダンスの万規模GPUクラスタトレーニングで実際に適用されており、数百万GPU時間の節約に貢献しています。

智元、家庭用ロボットベースの大規模言語モデルGO-1を発表成功率が大幅に向上

3月10日、智元ロボットは、初の汎用具象ベースの大規模言語モデルであるGenie Operator-1（GO-1と略称）を発表しました。この発表は大きな注目を集め、特に家庭用サービスロボットの可能性という点において、将来の家事管理に新たな希望をもたらすものとして期待されています。智元ロボットの公式発表によると、GO-1大規模言語モデルは大量の人間のビデオ学習を通じて、コップの水を運ぶ、食事を作る、客を迎えるなど、多くの家事タスクをこなす優れた能力を示しています。技術性能に関しては、

国家スパコンインターネットプラットフォームが阿里巴巴の千問大規模言語モデルに接続、QwQ-32B APIを提供開始

報道によると、国家スパコンインターネットプラットフォームは阿里巴巴の通義千問大規模言語モデルへの接続を発表し、千問QwQ-32B APIサービスの正式提供を開始しました。本サービスを利用するユーザーは、最大100万トークンを無料で利用でき、多くの開発者や研究者にとって絶好の機会となります。千問QwQ-32Bは阿里巴巴通義チームが最近オープンソース化した推論モデルであり、優れた性能を誇ります。複数の権威ある評価データによると、千問QwQ-32Bの能力は「フルバージョン」の671Bと匹敵します。