バイトダンスSeedチームは、Seedream3.0テキストツーイメージモデルの技術レポートを正式に発表しました。このモデルは性能において大幅な向上を実現し、ネイティブの高解像度で、中国語と英語の両言語をサポートする画像生成基礎モデルです。解像度、画像構造の正確性などにおいて多くの面でブレークスルーを達成し、前バージョンと比較して顕著な優位性を示しています。
Seedream3.0の様々な指標におけるパフォーマンス。図中の各指標のデータは、最適な指標を基準として正規化されています。
機能面でのハイライトとしては、Seedream3.0はネイティブで2Kの高解像度画像を直接出力でき、後処理なしで様々なシーンのニーズを満たせます。生成速度も非常に速く、わずか3秒で、創作効率を大幅に向上させます。小さな文字の生成やテキストの配置効果も最適化され、業界の難題を解決し、商業レベルの画像テキストデザイン能力を備えています。美感と構造がさらに向上し、指示への従順性も強化され、より魅力的な画像が生成されます。
技術的な実現においては、Seedream3.0は複数の側面で革新的な取り組みを行っています。データの最適化においては、画像欠陥を感知してデータセットを拡張し、視覚的意味の協調サンプリング戦略と独自開発の画像テキスト検索システムを用いてデータ分布を改善しました。
事前学習段階では、クロスモーダル回転位置符号化を用いてテキストレンダリング能力を強化し、多解像度混合トレーニングを利用して2K画像の直接出力を実現しました。また、新しい損失関数を使用してトレーニング効果を向上させています。後処理RLHF段階では、多粒度の美しさに関する記述を設計し、報酬モデルの規模を拡張してモデルの性能を向上させています。推論の高速化においては、一貫性のあるノイズ予測と安定したサンプリングプロセスを採用し、重要な時間ステップのサンプリングを利用してモデル蒸留トレーニングを加速することで、1K解像度の画像生成を端から端までわずか3秒で実現しました。
現在、Seedream3.0は豆包、即夢などのプラットフォームで全面的に公開されています。権威のある競技場であるArtificial Analysisのランキングでは、多くの有名なテキストツーイメージモデルと競合し、一時的に1位を獲得しました。特にポスターデザインと創造的な生成において優れたパフォーマンスを発揮しています。
今後、Seedチームは、より効率的な構造設計、モデルの知能化レベルの向上、データとモデルのスケーリング現象の探求などの分野で研究を深め、視覚生成分野の発展に貢献することを目指しています。
Arxiv:https://arxiv.org/abs/2504.11346
技術紹介ページ:https://team.doubao.com/tech/seedream3_0