बाइटडांस सीड टीम ने आधिकारिक तौर पर सीड्रीम 3.0 टेक्स्ट-टू-इमेज मॉडल की तकनीकी रिपोर्ट जारी की है। इस मॉडल ने प्रदर्शन में उल्लेखनीय सुधार किया है, यह एक देशी उच्च-रिज़ॉल्यूशन, चीनी और अंग्रेजी द्विभाषी समर्थन वाला छवि निर्माण आधार मॉडल है, जिसने रिज़ॉल्यूशन, छवि संरचना सटीकता आदि कई पहलुओं में सफलता प्राप्त की है, और पिछले संस्करण की तुलना में इसका स्पष्ट लाभ है।

QQ20250416-142610.png

सीड्रीम 3.0 का विभिन्न आयामों में प्रदर्शन। इस आरेख में प्रत्येक आयाम का डेटा सर्वोत्तम संकेतक को संदर्भ प्रणाली के रूप में लेता है, और इसे सामान्यीकृत किया गया है।

कार्यात्मक विशेषताओं के संदर्भ में, सीड्रीम 3.0 मूल रूप से 2K आउटपुट का समर्थन करता है, उच्च-रिज़ॉल्यूशन छवियों का उत्पादन करने के लिए बाद के प्रसंस्करण की आवश्यकता नहीं होती है, विभिन्न परिदृश्य आवश्यकताओं को पूरा करता है; आउटपुट गति बहुत तेज है, केवल 3 सेकंड, रचनात्मकता दक्षता में बहुत सुधार करता है; छोटे अक्षरों का निर्माण और पाठ लेआउट अनुकूलित किया गया है, उद्योग की समस्याओं को हल किया गया है, और इसमें व्यावसायिक स्तर की ग्राफिक्स और पाठ डिजाइन क्षमता है; सौंदर्यशास्त्र और संरचना में और सुधार हुआ है, निर्देश पालन में सुधार हुआ है, और आउटपुट अधिक प्रभावशाली है।

QQ20250416-142656.png

तकनीकी कार्यान्वयन के मामले में, सीड्रीम 3.0 ने कई आयामों में नवाचार किया है। डेटा अनुकूलन के संदर्भ में, छवि दोष जागरूकता के माध्यम से डेटासेट को बढ़ाया गया है, दृश्य शब्दार्थ सहयोगात्मक नमूनाकरण रणनीति और स्व-विकसित ग्राफिक्स और पाठ पुनर्प्राप्ति प्रणाली का उपयोग करके डेटा वितरण में सुधार किया गया है।

पूर्व-प्रशिक्षण चरण में, क्रॉस-मॉडल रोटेशन स्थिति एन्कोडिंग का उपयोग पाठ रेंडरिंग क्षमता को बढ़ाने के लिए किया जाता है, बहु-रिज़ॉल्यूशन मिश्रित प्रशिक्षण का उपयोग 2K छवि आउटपुट को प्राप्त करने के लिए किया जाता है, और प्रशिक्षण प्रभाव को बेहतर बनाने के लिए एक नए नुकसान फ़ंक्शन का उपयोग किया जाता है। बाद के प्रशिक्षण RLHF चरण में, बहु-दाने वाले सौंदर्यशास्त्र विवरण डिज़ाइन किए गए हैं, पुरस्कार मॉडल का पैमाना बढ़ाया गया है, और मॉडल प्रदर्शन में सुधार हुआ है। अनुमान त्वरण के संदर्भ में, सुसंगत शोर भविष्यवाणी और स्थिर नमूनाकरण प्रक्रिया का उपयोग किया जाता है, महत्वपूर्ण समय चरण नमूनाकरण का उपयोग मॉडल आसवन प्रशिक्षण को तेज करने के लिए किया जाता है, और 1K रिज़ॉल्यूशन छवि निर्माण के लिए एंड-टू-एंड केवल 3 सेकंड लगते हैं।

वर्तमान में, सीड्रीम 3.0 को डौबाओ और जिमेन जैसे प्लेटफार्मों पर पूरी तरह से लॉन्च किया गया है। आधिकारिक प्रतियोगिता स्थल आर्टिफिशियल एनालिसिस में रैंकिंग में, इसने कई प्रसिद्ध टेक्स्ट-टू-इमेज मॉडल के साथ प्रतिस्पर्धा की है और एक समय में पहले स्थान पर रहा है, विशेष रूप से पोस्टर डिज़ाइन और रचनात्मक निर्माण में उत्कृष्ट प्रदर्शन किया है।

भविष्य में, सीड्रीम टीम अधिक कुशल संरचनात्मक डिज़ाइन, मॉडल बुद्धिमत्ता के स्तर में सुधार, डेटा और मॉडल स्केलिंग घटनाओं की खोज आदि पर गहन शोध करने की योजना बना रही है, और दृश्य निर्माण क्षेत्र के विकास को बढ़ावा देने के लिए समर्पित है।

Arxiv:https://arxiv.org/abs/2504.11346

तकनीकी प्रदर्शन पृष्ठ:https://team.doubao.com/tech/seedream3_0