कृत्रिम बुद्धिमत्ता के क्षेत्र में, हर दिन क्रांतिकारी बदलाव हो सकते हैं। ठीक उसी दिन जब Midjourney ने एक बड़ा अपडेट किया, ओपन-सोर्स इमेज जनरेशन के क्षेत्र में एक नई और आकर्षक एंट्री आई - FLUX.1। यह अचानक आया नया खिलाड़ी न केवल प्रदर्शन में DALL·E3, Midjourney V6 जैसे बंद-स्रोत मॉडलों को पीछे छोड़ने का दावा करता है, बल्कि ओपन-सोर्स SD3 श्रृंखला को भी मात देता है, जिससे AI圈 में हलचल मच गई है।

चलो पहले FLUX.1 के पीछे के दिमाग को जानते हैं। इसके संस्थापक रॉबिन रोमबाक कोई साधारण व्यक्ति नहीं हैं, बल्कि वे डिफ्यूजन मॉडल के क्षेत्र के विशेषज्ञ हैं। उनके प्रमुख कार्यों में VQGAN, Taming Transformers और Latent Diffusion शामिल हैं, और वे Stability AI के मुख्य वैज्ञानिक रह चुके हैं, जिन्होंने विश्व प्रसिद्ध Stable Diffusion श्रृंखला परियोजना का नेतृत्व किया। कहा जा सकता है कि रॉबिन रोमबाक AI इमेज जनरेशन के क्षेत्र में "पुराने खिलाड़ियों" में से एक हैं।

image.png

इस वर्ष मार्च में, Stability AI के अंदर उठापटक के कारण, रॉबिन ने छोड़ने का निर्णय लिया। चार महीने की चुप्पी के बाद, उन्होंने नए ओपन-सोर्स बड़े मॉडल प्लेटफॉर्म FLUX.1 के साथ जोरदार वापसी की। और भी आश्चर्यजनक बात यह है कि FLUX.1 ने तुरंत प्रसिद्ध वेंचर कैपिटल फर्म Andreessen Horowitz द्वारा नेतृत्व किए गए 32 मिलियन डॉलर के सीड फंडिंग को प्राप्त किया। यह निश्चित रूप से FLUX.1 के भविष्य के विकास में एक बड़ा संजीवनी है।

तो, FLUX.1 में क्या खास है? सबसे पहले, यह Vision Transformer आर्किटेक्चर पर आधारित है, प्रक्रिया मिलान प्रशिक्षण विधि का उपयोग करता है, और मॉडल के प्रदर्शन और हार्डवेयर उपयोग दक्षता को बढ़ाने के लिए घूर्णन स्थिति एम्बेडिंग और समानांतर ध्यान परतों का उपयोग करता है। इस 12 अरब पैरामीटर के मॉडल ने तीन संस्करण पेश किए हैं:

  • Pro संस्करण: API के माध्यम से उपयोग, सबसे शक्तिशाली प्रदर्शन।

  • Dev संस्करण: गैर-व्यावसायिक मार्गदर्शन डिस्टिलेशन मॉडल, Pro संस्करण के अधिकांश प्रदर्शन को विरासत में लेता है।

  • Schnell संस्करण: व्यावसायिक उपयोग के लिए ओपन-सोर्स मॉडल, प्रदर्शन भी काफी उत्कृष्ट है।

FLUX.1 टीम के परीक्षण डेटा के अनुसार, यहां तक कि ओपन-सोर्स Schnell संस्करण भी पाठ अर्थ पुनर्स्थापन, चित्र गुणवत्ता, क्रियाओं की संगति, निरंतरता और विविधता जैसे पहलुओं में Midjourney v6.0, DALL·E3 (HD) और SD3-Ultra जैसे मुख्यधारा के मॉडलों को पार कर गया है। विशेष रूप से, पाठ को चित्र में एम्बेड करने के मामले में, FLUX.1 ने स्पष्ट लाभ दिखाया है।

यहां, AIbase ने कुछ आधिकारिक जनरेटेड इफेक्ट प्रदर्शनों को चुना है, आप देख सकते हैं:

वास्तविक फोटोग्राफी छवि

1.jpg

प्रॉम्प्ट: एक मशीन अनंत पॉलीरॉइड छवियाँ उत्पन्न करती है और उन्हें हवा में उड़ाती है। असली राष्ट्रीय भूगोल की फोटो

2.jpg

प्रॉम्प्ट: एक पुराने कक्षा की कक्षा की तस्वीर। कक्षा में चाक से लिखा हुआ "आओ हम कुछ बहुत सुंदर बनाएं", शब्दों के पीछे एक लाल चाक का दिल है। सूर्य की रोशनी खिड़की से आती है

सुर्रियलिज्म छवि

3.jpg

प्रॉम्प्ट: hajime sorayama द्वारा डिजाइन किया गया अमूर्त chrome80 के दशक का विज्ञान-कथा ऑटोमेटन स्प्रे गन स्थिर वस्तु, एकल लंबवत रेखा, जनरेटिव कला, p5js, शेकिंग

4.jpg

प्रॉम्प्ट: डोनट यीशु मिश्रण पौराणिक जीव

पशु छवि

5.jpg

प्रॉम्प्ट: दो प्यारी मकड़ियाँ विक्टोरियन शैली के कपड़े पहने एक छोटे चाय समारोह का आयोजन कर रही हैं, पास में एक छोटी मेज है, जिसमें चाय का बर्तन है, मैक्रो फोटो

6.jpg

प्रॉम्प्ट: एक पौराणिक जीव की क्लोज़-अप फ्रीडम रेंडरिंग, विस्तृत सर्पिल फ्रैक्टल और टेन्ड्रिल, विस्तृत पुनरावृत्त त्वचा बनावट

एनीमे छवि

7.jpg

प्रॉम्प्ट: एक सुंदर एनीमे कार्य, एक प्यारी एनीमे कैट गर्ल, जो उदास दिखती है, हाथ में एक कागज लिए हुए, कागज पर एक मुस्कान का चित्र है, वह रोने वाली है

QQ截图20240802091854.jpg

AIbase ने पहले के कैट गार्जियन का परीक्षण किया, और यह भी पूरी तरह से ठीक है, FLUX.1 प्रॉम्प्ट्स की समझ में काफी सटीक है।

बेशक, FLUX.1 की महत्वाकांक्षा स्पष्ट रूप से इससे कहीं अधिक है। टीम ने कहा कि टेक्स्ट-टू-इमेज केवल एक शुरुआत है, भविष्य में वे टेक्स्ट-टू-वीडियो मॉडल लॉन्च करने की योजना बना रहे हैं, जो Sora, Gen-3, Luma जैसे अग्रणी उत्पादों को चुनौती देगा।

डेवलपर्स और AI प्रेमियों के लिए, FLUX.1 का आगमन निश्चित रूप से एक बड़ा लाभ है। Schnell संस्करण पूरी तरह से ओपन-सोर्स हो चुका है, और Comfyui का समर्थन प्राप्त है। यदि आपके पास 36 जीबी से अधिक की वीडियो मेमोरी है, तो आप t5 के fp16 संस्करण को भी चला सकते हैं। लेकिन ध्यान दें कि t5xxl_fp16.safetensors या clip_l.safetensors और VAE को अलग से डाउनलोड करना होगा।

FLUX.1 का उदय न केवल ओपन-सोर्स AI इमेज जनरेशन क्षेत्र में नई उम्मीद लाया है, बल्कि पूरे AI उद्योग में नई ऊर्जा का संचार भी किया है। इसकी शक्तिशाली प्रदर्शन और ओपन-सोर्स विशेषताएँ, AI इमेज जनरेशन तकनीक के प्रसार और नवाचार को तेजी से बढ़ावा दे सकती हैं। आम उपयोगकर्ताओं के लिए, इसका अर्थ है कि हम जल्द ही घरेलू कंप्यूटर पर Midjourney के समकक्ष या उससे बेहतर AI इमेज जनरेशन मॉडल चला सकते हैं।

प्रोजेक्ट पता: https://github.com/black-forest-labs/flux

टेस्टिंग पता: https://replicate.com/black-forest-labs/flux-pro

Comfyui वर्कफ़्लो: https://comfyanonymous.github.io/ComfyUI_examples/flux/