Stable Diffusion 3 मॉडल जारी किया गया है, जो Sora के समान DiT संरचना का उपयोग करता है, और गुणवत्ता में महत्वपूर्ण सुधार हुआ है। लेखक का कहना है कि Stable Diffusion 3 अन्य टेक्स्ट-टू-इमेज जनरेशन सिस्टम से बेहतर है, जिसमें पैरामीटर की मात्रा 800M से 8B के बीच है। SD3 संरचना Sora के मुख्य विकास सदस्यों और न्यूयॉर्क विश्वविद्यालय के सहायक प्रोफेसर के सहयोग पर आधारित है, जो MMDiT संरचना का उपयोग करता है, जो UViT और DiT से बेहतर है। Stable Diffusion 3 ने Rectified Flow (RF) सूत्र को अपनाया है, और लेखक द्वारा प्रस्तावित पुनः भारित RF विविधता के प्रदर्शन में लगातार सुधार हो रहा है। मॉडल का विस्तारित अध्ययन किया गया है, जिसमें लचीले टेक्स्ट एन्कोडर का उपयोग किया गया है, और अन्य मॉडलों के साथ प्रदर्शन की तुलना की गई है।
Stable Diffusion 3 मॉडल जारी, संरचना विवरण का बड़ा खुलासा, क्या पुनरुत्पादन Sora के लिए सहायक है?
