आज, डौबाओ बड़े मॉडल टीम ने आधिकारिक तौर पर टेक्स्ट-टू-इमेज तकनीकी रिपोर्ट जारी की, जिसमें पहली बार Seedream2.0 इमेज जेनरेशन मॉडल के तकनीकी विवरणों का खुलासा किया गया है, जिसमें डेटा निर्माण, प्री-ट्रेनिंग फ्रेमवर्क, पोस्ट-ट्रेनिंग RLHF पूरी प्रक्रिया शामिल है, जिससे टेक्स्ट-टू-इमेज क्षेत्र में एक "भारी बम" गिराया गया है।
दिसंबर 2024 की शुरुआत में डौबाओ ऐप और जिमेई पर लॉन्च होने के बाद से, Seedream2.0 ने 10 करोड़ से ज़्यादा सी-एंड यूज़र्स को सेवाएँ दी हैं, और पेशेवर डिज़ाइनरों द्वारा इसे काफी पसंद किया गया है। Ideogram2.0, Midjourney V6.1 जैसे मुख्यधारा के मॉडलों की तुलना में, इसने टेक्स्ट रेंडरिंग की खराब गुणवत्ता, चीनी संस्कृति की अपर्याप्त समझ जैसी समस्याओं को हल किया है, और चीनी और अंग्रेज़ी दोनों भाषाओं की समझ, सौंदर्यशास्त्र और निर्देशों के पालन के मामले में व्यापक सुधार किया है।
Bench-240 मूल्यांकन मानदंड परीक्षण के माध्यम से, इसके अंग्रेज़ी प्रॉम्प्ट द्वारा उत्पन्न सामग्री की संरचनात्मक तार्किकता और पाठ की समझ की सटीकता बेहतर है; चीनी भाषा में उत्पन्न और प्रदान की गई पाठ सामग्री की उपयोग दर 78% है, और सही प्रतिक्रिया दर 63% है, जो उद्योग के अन्य मॉडलों से कहीं अधिक है।
तकनीकी कार्यान्वयन में, टीम ने कई पहलुओं में नवाचार किया है। डेटा प्रीप्रोसेसिंग चरण में, "ज्ञान संलयन" पर केंद्रित एक ढाँचा बनाया गया है। चार आयामी डेटा आर्किटेक्चर डेटा की गुणवत्ता और ज्ञान की विविधता को संतुलित करता है, बुद्धिमान लेबलिंग इंजन तीन-स्तरीय संज्ञानात्मक विकास को प्राप्त करता है, मॉडल की समझ और पहचान क्षमता में सुधार करता है, और इंजीनियरिंग पुनर्गठन डेटा प्रसंस्करण दक्षता में काफी सुधार करता है।
प्री-ट्रेनिंग चरण में, टीम ने द्विभाषी समझ और पाठ रेंडरिंग पर ध्यान केंद्रित किया। देशी द्विभाषी संरेखण योजना, एलएलएम को ठीक करके और विशेष डेटासेट बनाकर, भाषा और दृश्य आयामों के बीच की दीवार को तोड़ती है; द्वि-मोडल एन्कोडिंग फ्यूज़न सिस्टम मॉडल को पाठ अर्थ और फ़ॉन्ट आकार दोनों को ध्यान में रखने की अनुमति देता है; ट्रिपल अपग्रेडेड DiT आर्किटेक्चर, QK-Norm और स्केलिंग ROPE तकनीक का परिचय देता है, प्रशिक्षण स्थिरता में सुधार करता है और बहु-रिज़ॉल्यूशन इमेज जेनरेशन को प्राप्त करता है।
नोट:अंग्रेज़ी प्रॉम्प्ट के लिए, Seedream2.0 विभिन्न आयामों में प्रदर्शन करता है। इस आंकड़े में विभिन्न आयामों के डेटा को सर्वोत्तम संकेतक को संदर्भ बिंदु के रूप में मानकर सामान्यीकृत किया गया है।
पोस्ट-ट्रेनिंग RLHF प्रक्रिया में, टीम ने सिस्टम को ऑप्टिमाइज़ किया है, बहु-आयामी प्राथमिकता डेटा प्रणाली, तीन अलग-अलग पुरस्कार मॉडल और बार-बार सीखने से संचालित मॉडल विकास से तीन पहलुओं पर ध्यान केंद्रित किया है, जिससे मॉडल के प्रदर्शन में प्रभावी ढंग से सुधार हुआ है, और पुनरावृति में विभिन्न पुरस्कार मॉडल के स्कोर में लगातार वृद्धि हुई है।
नोट:चीनी प्रॉम्प्ट के लिए, Seedream2.0 विभिन्न आयामों में प्रदर्शन करता है। इस आंकड़े में विभिन्न आयामों के डेटा को सर्वोत्तम संकेतक को संदर्भ बिंदु के रूप में मानकर सामान्यीकृत किया गया है।
इस तकनीकी रिपोर्ट के प्रकाशन से, डौबाओ बड़े मॉडल टीम द्वारा इमेज जेनरेशन तकनीक के विकास को आगे बढ़ाने के दृढ़ संकल्प को दर्शाया गया है। भविष्य में, टीम नई तकनीकों की खोज जारी रखेगी, मॉडल के प्रदर्शन की सीमा को बढ़ाएगी, सुदृढीकरण अधिगम अनुकूलन तंत्र का गहन अध्ययन करेगी, तकनीकी अनुभव साझा करना जारी रखेगी और उद्योग के विकास में योगदान देगी।
तकनीकी प्रदर्शन पृष्ठ:https://team.doubao.com/tech/seedream
तकनीकी रिपोर्ट:https://arxiv.org/pdf/2503.07703