本日、Doubao大規模言語モデルチームは、テキストから画像を生成する技術に関する報告書を正式に発表し、Seedream2.0画像生成モデルの技術詳細を初めて公開しました。データ構築、事前学習フレームワーク、事後学習RLHFの全プロセスを網羅しており、テキストから画像を生成する分野に大きな衝撃を与えました。
Seedream2.0は2024年12月初旬からDoubaoアプリと即夢で提供開始され、既に1億人を超える一般ユーザーと、多くのプロのデザイナーに利用されています。Ideogram2.0、Midjourney V6.1などの主流モデルと比較して、テキストのレンダリング不良や中国文化の理解不足といった問題を解決し、英語と中国語の両言語の理解、美的センス、指示への遵守において大幅な改善を実現しました。
Bench-240評価基準テストによると、英語のプロンプトで生成されたコンテンツの構造の合理性とテキストの理解の正確性は、他を凌駕しています。中国語の生成とレンダリングにおける文字の利用率は78%、完全な応答率は63%に達し、業界の他のモデルを大きく上回っています。
技術的な実現においては、チームは多方面で革新的な取り組みを行いました。データの前処理段階では、「知識融合」を核とするフレームワークを構築しました。4次元データアーキテクチャによりデータの質と知識の多様性のバランスを取り、インテリジェントなアノテーションエンジンによる3段階の認知進化により、モデルの理解力と認識能力が向上し、エンジニアリングによる再構築によりデータ処理効率が大幅に向上しました。
事前学習段階では、チームは両言語理解と文字レンダリングに焦点を当てました。ネイティブのバイリンガルアライメント手法により、LLMの微調整と専用データセットの構築を通じて、言語と視覚の次元間の壁を打破しました。双方向モダリティ符号化融合システムにより、モデルはテキストの意味とフォントの形状の両方を考慮します。DiTアーキテクチャの3段階のアップグレードにより、QK-NormとScaling ROPE技術を導入し、トレーニングの安定性を向上させ、複数解像度の画像生成を実現しました。
注:英語のプロンプトに対して、Seedream2.0が様々な次元で示したパフォーマンスです。図中の各次元のデータは、最高の指標を基準として正規化されています。
事後学習RLHFプロセスでは、チームは最適化システムを開発し、多様な好みデータ体系、3つの異なる報酬モデル、反復学習によるモデル進化の3つの側面から取り組み、モデルのパフォーマンスを効果的に向上させました。異なる報酬モデルのパフォーマンススコアは、反復処理の中で着実に上昇しています。
注:中国語のプロンプトに対して、Seedream2.0が様々な次元で示したパフォーマンスです。図中の各次元のデータは、最高の指標を基準として正規化されています。
今回の技術報告書の発表は、Doubao大規模言語モデルチームが画像生成技術の発展を推進する決意を示すものです。今後、チームは革新的な技術の探求、モデル性能限界の向上、強化学習最適化メカニズムの深層研究、技術経験の継続的な共有を行い、業界の発展に貢献していきます。
技術紹介ページ:https://team.doubao.com/tech/seedream
技術報告書:https://arxiv.org/pdf/2503.07703