Das ByteDance Seed-Team hat den technischen Bericht zum Seedream 3.0 Text-zu-Bild-Modell veröffentlicht. Dieses Modell bietet erhebliche Leistungsverbesserungen und ist ein natives, hochauflösendes, chinesisch- und englischsprachiges Basismodell zur Bildgenerierung. Es erzielt in Bezug auf Auflösung und Genauigkeit der Bildstruktur Durchbrüche und weist im Vergleich zur vorherigen Version deutliche Vorteile auf.

QQ20250416-142610.png

Leistung von Seedream 3.0 in verschiedenen Dimensionen. Die Daten in diesem Diagramm wurden auf Basis des besten Indikators normalisiert.

Zu den Highlights gehören die native 2K-Ausgabe ohne Nachbearbeitung für hochauflösende Bilder in verschiedenen Szenarien; eine extrem schnelle Generierungsgeschwindigkeit von nur 3 Sekunden für eine deutlich gesteigerte Kreativität; optimierte Kleinbuchstaben-Generierung und Textausrichtung, die branchenweite Herausforderungen löst und Kompetenz im Bereich des kommerziellen Grafikdesigns bietet; sowie eine verbesserte Ästhetik und Struktur, erhöhte Anweisungstreue und aussagekräftigere Bilder.

QQ20250416-142656.png

In Bezug auf die technische Umsetzung bietet Seedream 3.0 Innovationen in mehreren Bereichen. Bei der Datenoptimierung wurde der Datensatz durch die Erkennung von Bildfehlern erweitert und die Datenverteilung durch eine visuelle semantische Co-Sampling-Strategie und ein selbst entwickeltes Bild-Text-Retrieval-System verbessert.

In der Pretraining-Phase wurde die Textrendering-Fähigkeit durch eine crossmodale rotierende Positionscodierung verbessert, die 2K-Bildausgabe durch ein mehrskaliges Mischtraining erreicht und eine neue Verlustfunktion zur Verbesserung der Trainingsergebnisse eingesetzt. In der Post-Training RLHF-Phase wurde eine mehrgranulare Beschreibung der Ästhetik entwickelt, die Größe des Belohnungsmodells erweitert und die Modellleistung verbessert. Bei der Beschleunigung der Inferenz wurden konsistente Rauschvorhersage und ein stabiler Abtastprozess verwendet, um das Modell-Destillationstraining durch Abtastung wichtiger Zeitschritte zu beschleunigen und eine End-to-End-Generierung von Bildern mit 1K-Auflösung in nur 3 Sekunden zu ermöglichen.

Derzeit ist Seedream 3.0 auf den Plattformen Doubao und Jimeng vollständig verfügbar. Im renommierten Leaderboard Artificial Analysis belegte es unter zahlreichen bekannten Text-zu-Bild-Modellen zeitweise den ersten Platz, insbesondere im Bereich Plakatdesign und kreativer Generierung.

Zukünftig plant das Seed-Team, die Forschung in den Bereichen effizienterer Strukturentwurf, Verbesserung des Intelligenzniveaus des Modells und Erforschung von Skalierungsphänomenen von Daten und Modellen zu vertiefen, um die Entwicklung des Bereichs der visuellen Generierung voranzutreiben.

Arxiv: https://arxiv.org/abs/2504.11346

Technische Präsentation: https://team.doubao.com/tech/seedream3_0