हाल ही में, शोधकर्ताओं ने एक नवोन्मेषी आर्टिफिशियल इंटेलिजेंस सिस्टम - DiffSensei विकसित किया है, जो लिखित कहानियों को स्वचालित रूप से कॉमिक शैली में परिवर्तित कर सकता है। यह सिस्टम न केवल पात्रों की उपस्थिति की स्थिरता बनाए रखता है, बल्कि कॉमिक पृष्ठों के लेआउट को भी नियंत्रित करता है, जो कॉमिक निर्माण के क्षेत्र में एआई की विशाल संभावनाओं को दर्शाता है।

यह परियोजना पीकिंग यूनिवर्सिटी, शंघाई आर्टिफिशियल इंटेलिजेंस लैब और नान्यांग टेक्नोलॉजिकल यूनिवर्सिटी द्वारा संयुक्त रूप से विकसित की गई है, जिसमें प्रसार मॉडल और बड़े भाषा मॉडल को मिलाया गया है, जिसका उद्देश्य कॉमिक निर्माण में दृश्य और कथात्मक तत्वों को संभालना है। DiffSensei की क्षमताओं को प्रदर्शित करने के लिए, शोध टीम ने एक काल्पनिक कॉमिक बनाई, जिसमें आर्टिफिशियल इंटेलिजेंस के क्षेत्र के अग्रणी जेफ्री हिंटन, यान लेकुन और जोशुआ बेंजीओ की कहानी बताई गई है। यह कॉमिक तीन वैज्ञानिकों द्वारा ट्रांसफार्मर आर्किटेक्चर को पार करने में सक्षम आर्टिफिशियल इंटेलिजेंस मॉडल विकसित करने और अंततः नोबेल पुरस्कार प्राप्त करने की कहानी को दर्शाती है।

QQ20250103-093559.png

छवि: वू एट अल।

DiffSensei-Example-2-770x244.jpg

छवि: वू एट अल।

DiffSensei का कार्यप्रणाली

DiffSensei मल्टीमोडल मॉडल और LoRA तकनीक का उपयोग करता है, यह सुनिश्चित करते हुए कि कॉमिक में पात्र हर पैनल पर समान दिखें। यह सिस्टम कॉमिक निर्माण के लिए तीन चरणों में कार्य करता है: पहले पृष्ठ का लेआउट उत्पन्न करना, फिर पात्रों को चित्रित करना, और अंत में संवाद पाठ जोड़ना।

DiffSensei को प्रशिक्षित करने के लिए, शोधकर्ताओं ने एक डेटासेट बनाया जिसका नाम MangaZero है। इस डेटासेट में 48 विभिन्न कॉमिक श्रृंखलाओं से 43,000 से अधिक पृष्ठ और 427,000 अलग-अलग पैनल शामिल हैं, जिनमें प्रत्येक पैनल को विस्तृत रूप से चिह्नित किया गया है, जिसमें पात्रों के स्थान और संवाद स्थान को रिकॉर्ड किया गया है, जो सिस्टम के सुचारू संचालन के लिए महत्वपूर्ण है।

DiffSensei-method-770x421.jpg

छवि: वू एट अल।

भविष्य की संभावनाएं और चुनौतियां

हालांकि DiffSensei ने विशाल संभावनाएं प्रदर्शित की हैं, लेकिन इस सिस्टम को कुछ चुनौतियों का सामना करना पड़ता है। वर्तमान में, जब पात्रों की संदर्भ छवियां स्पष्ट नहीं होती हैं, तो सिस्टम में त्रुटियां हो सकती हैं, कभी-कभी समान पात्रों को गलत तरीके से विलय किया जा सकता है। और, यदि कोई स्पष्ट पात्र संदर्भ नहीं है, तो उत्पन्न कलात्मक कार्य सामान्य लग सकता है, और विशेष कॉमिक शैली को सही तरीके से प्रस्तुत नहीं कर सकता।

शोधकर्ताओं का मानना है कि DiffSensei भविष्य में कॉमिक निर्माण की प्रक्रिया को बहुत सरल बना सकता है। यह तकनीक कलाकारों, प्रकाशकों और रचनाकारों को एक नया उपकरण प्रदान करती है, जिससे वे आसानी से व्यक्तिगत कॉमिक्स बना सकें, जबकि पात्रों और पृष्ठ लेआउट पर सटीक नियंत्रण बनाए रख सकें।