आज, डौबाओ बड़े मॉडल टीम ने आधिकारिक तौर पर टेक्स्ट-टू-इमेज तकनीकी रिपोर्ट जारी की, जिसमें पहली बार Seedream2.0 इमेज जेनरेशन मॉडल के तकनीकी विवरणों का खुलासा किया गया है, जिसमें डेटा निर्माण, प्री-ट्रेनिंग फ्रेमवर्क, पोस्ट-ट्रेनिंग RLHF पूरी प्रक्रिया शामिल है, जिससे टेक्स्ट-टू-इमेज क्षेत्र में एक "भारी बम" गिराया गया है।

दिसंबर 2024 की शुरुआत में डौबाओ ऐप और जिमेई पर लॉन्च होने के बाद से, Seedream2.0 ने 10 करोड़ से ज़्यादा सी-एंड यूज़र्स को सेवाएँ दी हैं, और पेशेवर डिज़ाइनरों द्वारा इसे काफी पसंद किया गया है। Ideogram2.0, Midjourney V6.1 जैसे मुख्यधारा के मॉडलों की तुलना में, इसने टेक्स्ट रेंडरिंग की खराब गुणवत्ता, चीनी संस्कृति की अपर्याप्त समझ जैसी समस्याओं को हल किया है, और चीनी और अंग्रेज़ी दोनों भाषाओं की समझ, सौंदर्यशास्त्र और निर्देशों के पालन के मामले में व्यापक सुधार किया है।

QQ20250312-134342.png

QQ20250312-134350.png

Bench-240 मूल्यांकन मानदंड परीक्षण के माध्यम से, इसके अंग्रेज़ी प्रॉम्प्ट द्वारा उत्पन्न सामग्री की संरचनात्मक तार्किकता और पाठ की समझ की सटीकता बेहतर है; चीनी भाषा में उत्पन्न और प्रदान की गई पाठ सामग्री की उपयोग दर 78% है, और सही प्रतिक्रिया दर 63% है, जो उद्योग के अन्य मॉडलों से कहीं अधिक है।

QQ20250312-134356.png

तकनीकी कार्यान्वयन में, टीम ने कई पहलुओं में नवाचार किया है। डेटा प्रीप्रोसेसिंग चरण में, "ज्ञान संलयन" पर केंद्रित एक ढाँचा बनाया गया है। चार आयामी डेटा आर्किटेक्चर डेटा की गुणवत्ता और ज्ञान की विविधता को संतुलित करता है, बुद्धिमान लेबलिंग इंजन तीन-स्तरीय संज्ञानात्मक विकास को प्राप्त करता है, मॉडल की समझ और पहचान क्षमता में सुधार करता है, और इंजीनियरिंग पुनर्गठन डेटा प्रसंस्करण दक्षता में काफी सुधार करता है।

प्री-ट्रेनिंग चरण में, टीम ने द्विभाषी समझ और पाठ रेंडरिंग पर ध्यान केंद्रित किया। देशी द्विभाषी संरेखण योजना, एलएलएम को ठीक करके और विशेष डेटासेट बनाकर, भाषा और दृश्य आयामों के बीच की दीवार को तोड़ती है; द्वि-मोडल एन्कोडिंग फ्यूज़न सिस्टम मॉडल को पाठ अर्थ और फ़ॉन्ट आकार दोनों को ध्यान में रखने की अनुमति देता है; ट्रिपल अपग्रेडेड DiT आर्किटेक्चर, QK-Norm और स्केलिंग ROPE तकनीक का परिचय देता है, प्रशिक्षण स्थिरता में सुधार करता है और बहु-रिज़ॉल्यूशन इमेज जेनरेशन को प्राप्त करता है।

QQ20250312-134404.png

नोट:अंग्रेज़ी प्रॉम्प्ट के लिए, Seedream2.0 विभिन्न आयामों में प्रदर्शन करता है। इस आंकड़े में विभिन्न आयामों के डेटा को सर्वोत्तम संकेतक को संदर्भ बिंदु के रूप में मानकर सामान्यीकृत किया गया है।

पोस्ट-ट्रेनिंग RLHF प्रक्रिया में, टीम ने सिस्टम को ऑप्टिमाइज़ किया है, बहु-आयामी प्राथमिकता डेटा प्रणाली, तीन अलग-अलग पुरस्कार मॉडल और बार-बार सीखने से संचालित मॉडल विकास से तीन पहलुओं पर ध्यान केंद्रित किया है, जिससे मॉडल के प्रदर्शन में प्रभावी ढंग से सुधार हुआ है, और पुनरावृति में विभिन्न पुरस्कार मॉडल के स्कोर में लगातार वृद्धि हुई है।

QQ20250312-134518.png

नोट:चीनी प्रॉम्प्ट के लिए, Seedream2.0 विभिन्न आयामों में प्रदर्शन करता है। इस आंकड़े में विभिन्न आयामों के डेटा को सर्वोत्तम संकेतक को संदर्भ बिंदु के रूप में मानकर सामान्यीकृत किया गया है।

इस तकनीकी रिपोर्ट के प्रकाशन से, डौबाओ बड़े मॉडल टीम द्वारा इमेज जेनरेशन तकनीक के विकास को आगे बढ़ाने के दृढ़ संकल्प को दर्शाया गया है। भविष्य में, टीम नई तकनीकों की खोज जारी रखेगी, मॉडल के प्रदर्शन की सीमा को बढ़ाएगी, सुदृढीकरण अधिगम अनुकूलन तंत्र का गहन अध्ययन करेगी, तकनीकी अनुभव साझा करना जारी रखेगी और उद्योग के विकास में योगदान देगी। 

तकनीकी प्रदर्शन पृष्ठ:https://team.doubao.com/tech/seedream

तकनीकी रिपोर्ट:https://arxiv.org/pdf/2503.07703