बाइटडांस ने चुपके से InfiniteYou (InfU) नामक एक छवि निर्माण उपकरण लॉन्च किया है। संक्षेप में, यह एक टेक्स्ट-टू-इमेज जेनरेटिव मॉडल है, जिसकी ख़ासियत यह है कि यह आपके द्वारा दिए गए टेक्स्ट विवरण के अनुसार, आपकी व्यक्तिगत पहचान विशेषताओं वाली उच्च-गुणवत्ता वाली छवियां उत्पन्न कर सकता है।
यह साधारण फेस-स्वैप ऐप से कहीं अधिक है, यह दृश्यों और सामग्री में लचीले परिवर्तन के साथ-साथ, आपकी पहचान विशेषताओं को सटीक रूप से संरक्षित करने पर ज़्यादा ध्यान केंद्रित करता है। कल्पना कीजिए कि आप आसानी से अंतरिक्ष में अंतरिक्ष यात्री के वेश में टहलते हुए या प्राचीन वेशभूषा में अतीत में यात्रा करते हुए अपनी तस्वीरें बना सकते हैं, और यह सुनिश्चित कर सकते हैं कि वह चेहरा आपका ही है, कितना शानदार है!
“InfiniteYou” ऐसा इसलिए कर पाता है क्योंकि इसके पीछे एक “कॉम्बिनेशन पंच” है।
- मुख्य हथियार: InfuseNet। “InfiniteYou” का मुख्य हथियार InfuseNet नामक एक गुप्त हथियार है। यह आपकी पहचान विशेषताओं को Diffusion Transformer (DiT) जैसे उन्नत छवि निर्माण मॉडल (जैसे FLUX) में कुशलतापूर्वक शामिल कर सकता है। InfuseNet एक कुशल मेकअप आर्टिस्ट की तरह है, जो "अवशिष्ट कनेक्शन" जैसे बारीक ऑपरेशन के माध्यम से, चेहरे की समानता को बढ़ाने के साथ-साथ मूल निर्माण क्षमता को भी नहीं बिगाड़ता है।
- बहु-चरण प्रशिक्षण: निखार। “InfiniteYou” का निर्माण एक ही बार में नहीं हुआ, बल्कि पूर्व-प्रशिक्षण और संश्लेषित एकल-व्यक्ति बहु-नमूना (SPMS) डेटा का उपयोग करके पर्यवेक्षित ठीक-ट्यूनिंग (SFT) जैसी कई चुनौतियों से गुज़रा है। इस तरह की परिष्कृत प्रशिक्षण रणनीति, पाठ और छवि के संरेखण को उल्लेखनीय रूप से बढ़ा सकती है, जिससे उत्पन्न छवियां आपके पाठ विवरण से अधिक मेल खाती हैं, साथ ही छवि की गुणवत्ता और सौंदर्यशास्त्र में सुधार भी करती है, और "फेस-स्वैप" के बाद होने वाली सामान्य चेहरे की कॉपी-पेस्ट समस्या को प्रभावी ढंग से कम करती है।
- मॉडल "डबल इंश्योरेंस": अलग-अलग फोकस। बाइटडांस ने इस बार aes_stage2 और sim_stage1 दो मॉडल संस्करण भी जारी किए हैं। aes_stage2 दूसरे चरण के ठीक-ट्यूनिंग वाला मॉडल है, जो डिफ़ॉल्ट रूप से बेहतर टेक्स्ट-इमेज संरेखण और सौंदर्यशास्त्र प्रदान करता है। यदि आप चेहरे की समानता पर अधिक ध्यान केंद्रित करते हैं, तो आप sim_stage1 चुन सकते हैं। यह मोबाइल फोन खरीदने जैसा है, एक फ़ोटोग्राफ़ी प्रभाव पर केंद्रित है, दूसरा प्रदर्शन पर, आपके लिए हमेशा एक उपयुक्त विकल्प होगा।
तुलनात्मक प्रयोगों से पता चलता है कि “InfiniteYou” पहचान की समानता, टेक्स्ट-इमेज संरेखण, छवि की गुणवत्ता और सौंदर्यशास्त्र आदि पहलुओं में मौजूदा उन्नत तरीकों, जैसे FLUX.1-dev IP-Adapter और PuLID-FLUX से बेहतर है। वे तरीके या तो चेहरे से मिलते-जुलते नहीं होते हैं, या पाठ विवरण और छवि सामग्री मेल नहीं खाती है, या छवि की गुणवत्ता खराब होती है, या यहाँ तक कि "फेस-स्वैप" के बाद चेहरे की विशेषताएँ कठोरता से चिपकी हुई दिखाई देती हैं। इसकी तुलना में, “InfiniteYou” का प्रदर्शन अधिक व्यापक और उत्कृष्ट है।
और भी आश्चर्यजनक बात यह है कि “InfiniteYou” में **"प्लग एंड प्ले"** की विशेषता भी है। यह FLUX.1-dev के विभिन्न रूपों (जैसे अधिक कुशल FLUX.1-schnell), ControlNets और LoRAs जैसे मौजूदा उपकरणों के साथ निर्बाध रूप से एकीकृत हो सकता है, जिससे अधिक नियंत्रण और अनुकूलन क्षमता मिलती है। यह IP-Adapter के साथ भी संयोजित हो सकता है, जिससे व्यक्तिगत छवियों का स्टाइल ट्रांसफर किया जा सकता है। इस तरह की शक्तिशाली संगतता निस्संदेह व्यापक समुदाय के लिए मूल्यवान योगदान देगी।
ध्यान दें कि “InfiniteYou” वर्तमान में Creative Commons Attribution-NonCommercial 4.0 International Public License के तहत जारी किया गया है, और केवल शैक्षणिक अनुसंधान के लिए है। संबंधित मॉडल (जैसे InsightFace का चेहरा मॉडल, FLUX.1-dev बेस मॉडल और LoRA आदि) को डाउनलोड और उपयोग करने के लिए उनके मूल लाइसेंस का पालन करना होगा। साथ ही, डेवलपर्स चाहते हैं कि उपयोगकर्ता स्थानीय कानूनों और विनियमों का पालन करें, इस तकनीक का जिम्मेदारी से उपयोग करें और किसी भी संभावित दुरुपयोग से बचें।
प्रोजेक्ट प्रवेश द्वार: https://top.aibase.com/tool/infiniteyou