एला (कुशल बड़ा भाषा मॉडल एडेप्टर) एक हल्का तरीका है जो मौजूदा CLIP-आधारित डिफ्यूज़न मॉडल को शक्तिशाली LLM से लैस करता है। एला मॉडल की प्रॉम्प्ट अनुपालन क्षमता में सुधार करता है, जिससे टेक्स्ट-टू-इमेज मॉडल लंबे टेक्स्ट को समझ पाते हैं। हमने एक समय-संवेदनशील अर्थ कनेक्टर डिज़ाइन किया है जो पूर्व-प्रशिक्षित LLM से विभिन्न डेनॉइज़िंग चरणों के लिए समय-चरण-संबंधित स्थितियों को निकालता है। हमारा TSC गतिशील रूप से विभिन्न नमूना समय चरणों की अर्थ विशेषताओं के अनुकूल होता है, जिससे U-नेट को विभिन्न अर्थ स्तरों पर स्थिर करने में मदद मिलती है। एला DPG-बेंच जैसे बेंचमार्क में बेहतर प्रदर्शन करता है, खासकर उन घने प्रॉम्प्ट में जो कई ऑब्जेक्ट संयोजन, विभिन्न गुणों और संबंधों से जुड़े होते हैं।