Heute veröffentlicht das Doubao-Großmodellteam offiziell seinen technischen Bericht zur Text-zu-Bild-Technologie und enthüllt erstmals die technischen Details des Seedream 2.0 Bildgenerierungsmodells. Der Bericht umfasst die Datenkonstruktion, das Vortrainings-Framework und den gesamten RLHF-Prozess nach dem Training und stellt einen bedeutenden Fortschritt im Bereich der Text-zu-Bild-Generierung dar.
Seedream 2.0 ist seit Anfang Dezember 2024 in der Doubao-App und in Jimeng verfügbar und hat bereits über 100 Millionen Endkunden bedient und erfreut sich großer Beliebtheit bei professionellen Designern. Im Vergleich zu gängigen Modellen wie Ideogram 2.0 und Midjourney V6.1 behebt es Probleme wie schlechte Textwiedergabe und unzureichendes Verständnis der chinesischen Kultur und erzielt Verbesserungen in Bezug auf das Verständnis von Englisch und Chinesisch, Ästhetik und die Befolgung von Anweisungen.
Tests mit dem Bench-240-Benchmark zeigen, dass die von Seedream 2.0 generierten Inhalte auf Basis englischer Eingabeaufforderungen eine höhere strukturelle Stimmigkeit und Genauigkeit im Textverständnis aufweisen. Die Nutzungshäufigkeit der generierten und gerenderten chinesischen Texte beträgt 78%, die perfekte Reaktionsrate 63%, was deutlich über den Werten anderer Modelle auf dem Markt liegt.
Die technischen Implementierungen beinhalten verschiedene Innovationen. Bei der Datenvorverarbeitung wurde ein auf „Wissensfusion“ basierendes Framework entwickelt. Eine vierdimensionale Datenarchitektur balanciert Datenqualität und Wissensvielfalt. Eine intelligente Annotation Engine ermöglicht eine dreistufige kognitive Entwicklung, um das Verständnis und die Erkennungsfähigkeit des Modells zu verbessern, während die ingenieurmäßige Neukonstruktion die Datenverarbeitungsgeschwindigkeit deutlich erhöht.
In der Vortrainings-Phase konzentrierte sich das Team auf das zweisprachige Verständnis und die Textwiedergabe. Ein natives zweisprachiges Alignment-Verfahren, das durch Feintuning des LLMs und die Erstellung spezieller Datensätze erreicht wird, durchbricht die Barriere zwischen Sprache und Bild. Ein bimodales Codierungsfusionssystem ermöglicht es dem Modell, sowohl die semantische Bedeutung des Textes als auch die Schriftart und Schriftzeichen zu berücksichtigen. Die dreifache Verbesserung der DiT-Architektur durch Einführung der QK-Norm- und Scaling-ROPE-Technologie verbessert die Trainingsstabilität und ermöglicht die Erzeugung von Bildern mit mehreren Auflösungen.
Anmerkung: Die Darstellung von Seedream 2.0 in verschiedenen Dimensionen für englische Eingabeaufforderungen. Die Daten der einzelnen Dimensionen in dieser Abbildung sind auf den besten Wert normiert.
Im RLHF-Prozess nach dem Training entwickelte und optimierte das Team ein System, das sich auf ein mehrdimensionales Präferenzdatensystem, drei verschiedene Belohnungsmodelle und ein iteratives Lernverfahren konzentriert, um die Modellleistung effektiv zu verbessern. Die Bewertungswerte der verschiedenen Belohnungsmodelle steigen im Laufe der Iteration stetig an.
Anmerkung: Die Darstellung von Seedream 2.0 in verschiedenen Dimensionen für chinesische Eingabeaufforderungen. Die Daten der einzelnen Dimensionen in dieser Abbildung sind auf den besten Wert normiert.
Die Veröffentlichung dieses technischen Berichts unterstreicht das Engagement des Doubao-Großmodellteams für die Weiterentwicklung der Bildgenerierungstechnologie. Zukünftig wird das Team weiterhin innovative Technologien erforschen, die Leistungsgrenzen des Modells verbessern, die Optimierungsmechanismen des verstärkenden Lernens vertiefen, kontinuierlich technische Erfahrungen austauschen und zur Entwicklung der Branche beitragen.
Technische Demonstrationsseite: https://team.doubao.com/tech/seedream
Technischer Bericht: https://arxiv.org/pdf/2503.07703