人工知能分野に新たな輝ける星が登場!最近、華為諾亞方舟研究所と香港大学自然言語処理グループ(HKU NLP Group)は、Dream7Bという新しい言語モデルを共同で発表しました。このモデルは「これまでで最も強力なオープンソース拡散型大規模言語モデル」と評されています。

Dream7Bの登場は、既存の拡散言語モデルを性能面で凌駕するだけでなく、汎用能力、数学、コード、計画能力においても、同規模の最先端の自己回帰(AR)言語モデルに匹敵、あるいは凌駕する成果を上げています。この画期的な進歩は、テキスト生成分野に新たな技術パラダイムをもたらす可能性を示唆しています。

QQ_1744337169007.png

従来を覆す:拡散モデルによるより強力な言語理解と生成

長らく、GPT-4、DeepSeek、Claudeなどを代表とする主流の大規模言語モデルは、自己回帰(AR)アーキテクチャに依存していました。つまり、左から右へ順番にテキストを生成する方式です。このようなモデルは大きな成功を収めていますが、複雑な推論、長期的な計画、長文の一貫性の維持などにおいては依然として課題がありました。

QQ_1744337189799.png

Dream7Bの中核は、離散拡散モデル(Discrete Diffusion Models、DMs)という革新的なアーキテクチャを採用している点にあります。ARモデルとは異なり、拡散モデルは完全にノイズの多い状態から出発し、段階的に洗練させることで、テキストシーケンス全体を並列に生成します。この根本的なアーキテクチャの違いは、多くの顕著な利点をもたらします。

  • 双方向コンテキストモデリングによるより強力なグローバルな一貫性:拡散モデルはテキストシーケンスの双方向の情報に同時に着目できるため、コンテキストをより包括的に理解し、一貫性が高いテキストを生成できます。
  • 柔軟で制御可能な生成能力:反復的な最適化プロセスを通じて、Dream7Bはより柔軟で制御可能なテキスト生成を実現できます。
  • 潜在的なサンプリング高速化能力:新しいアーキテクチャとトレーニング目標により、ノイズからデータへのより効率的で直接的なマッピングが可能になり、モデル推論プロセスを高速化できる可能性があります。

近年、拡散モデルは言語タスクにおける潜在能力がますます注目されており、DiffuLLaMAやLLaDAなどのモデルは、拡散言語モデルを70億パラメータ規模にまで拡張しています。今回発表されたDream7Bは、この流れにおける新たな画期的な成果です。

卓越した性能:複数のタスクで最先端の自己回帰モデルに匹敵

Dream7Bは、いくつかの重要な能力において驚異的な能力を示しています。

  • 既存の拡散言語モデルを大幅に凌駕
  • 汎用性、数学、コード能力において、同規模の最先端の自己回帰モデルに匹敵、あるいはそれを上回る
  • 計画能力において顕著な成果を上げており、CountdownやSudokuなどのタスクにおける評価で、Dream7Bは同規模の他のモデルを大幅に上回り、場合によってはパラメータ数がはるかに多い最新のDeepSeek V3に匹敵する結果を示しました。これは、複数の制約を満たしたり、特定の目標を達成する必要がある問題を解決する際に、拡散モデルの方が優れていることを示唆しています。

独創的な工夫:革新的な技術によるモデル効率の向上

Dream7Bの成功は偶然ではなく、研究開発チームの多くの革新が背景にあります。

  • 自己回帰モデルによる重みの初期化:研究チームは、既存の自己回帰モデル(Qwen2.57BやLLaMA3など)の重みを拡散モデルの初期パラメータとして使用することで、特にトレーニング初期においてトレーニング効率を大幅に向上できることを発見しました。
  • コンテキスト適応型トークンレベルノイズ再スケジューリングメカニズム:Dream7Bは、各トークンのコンテキスト情報量に応じてノイズレベルを動的に調整することで、より精密な学習を実現できます。

柔軟な推論:生成順序の制約を打破

自己回帰モデルの固定された左から右への生成方法とは異なり、Dream7Bの拡散モデルアーキテクチャはより柔軟な推論能力を与えています。

  • 任意の順序での生成:Dream7Bは生成順序の制約を受けず、任意の順序で出力を合成できるため、さまざまなユーザークエリにより適応できます。例えば、テキスト補完や中間内容の挿入を柔軟に行うことができます。
  • 品質と速度の調整:拡散ステップ数を調整することで、ユーザーは生成速度と品質のバランスを柔軟に調整できます。ステップ数が少ないと生成速度は速くなりますが、品質はやや低くなります。一方、ステップ数が多いとより高品質の出力が得られますが、計算コストは高くなります。

現在、Dream7Bの基本モデルと指示微調整モデルの重み、コードはGitHubで公開されています。これは、拡散モデルの自然言語処理分野におけるさらなる研究と応用を大きく促進するでしょう。華為諾亞方舟研究所と香港大学自然言語処理グループは、今後、拡散言語モデルのより高度な後処理方法の探求を継続していくと述べています。

製品入口:https://top.aibase.com/tool/dream-7b