AI छवि निर्माण तकनीक के लिए प्रसिद्ध Midjourney, कृत्रिम बुद्धिमत्ता क्षेत्र में अपनी व्यापक महत्वाकांक्षा धीरे-धीरे दिखा रहा है। विशाल उपयोगकर्ता आधार वाली इस तकनीकी कंपनी ने स्व-विकसित कंप्यूटिंग और AI हार्डवेयर के समाचार के बाद, हाल ही में न्यूयॉर्क विश्वविद्यालय (NYU) के मशीन लर्निंग विशेषज्ञों के साथ मिलकर पाठ निर्माण बड़े भाषा मॉडल (LLMs) के प्रशिक्षण पर एक नया शोध परिणाम जारी किया है।
यह शोध LLM की रचनात्मक लेखन क्षमताओं को बेहतर बनाने पर केंद्रित है, जिसका उद्देश्य AI मॉडल को Meta के Llama और Mistral जैसे ओपन-सोर्स मॉडल की तरह अधिक रचनात्मक पाठ लिखने में सक्षम बनाना है।
केवल छवियों तक सीमित नहीं: Midjourney रचनात्मक पाठ निर्माण पर जोर दे रहा है
डिफ्यूज़न मॉडल AI इमेज जेनरेशन टेक्नोलॉजी के लिए जानी जाने वाली कंपनी के लिए, टेक्स्ट जेनरेशन के क्षेत्र में Midjourney का यह नवीन प्रयास निस्संदेह बाहरी दुनिया को एक स्पष्ट संकेत देता है: उनका लक्ष्य केवल दृश्य सामग्री तक सीमित नहीं है। जैसे शोधकर्ताओं ने कहा, "एक चित्र हजार शब्दों से अधिक बोलता है" की पारंपरिक अवधारणा को फिर से लिखा जा सकता है, पाठ की रचनात्मक क्षमता को भी गहराई से तलाशने योग्य है। Midjourney व्यावहारिक कार्यों से साबित कर रहा है कि AI क्षेत्र में इसकी खोज बहुआयामी है।
"रूढ़ियों" से मुक्ति: नवीन तकनीक AI लेखन की विविधता को बढ़ाती है
AI कोड समुदाय Hugging Face पर प्रकाशित यह शोध पत्र, "विविध प्रत्यक्ष प्राथमिकता अनुकूलन" (Diversified Direct Preference Optimization, DDPO) और "विविध ऑड्स अनुपात प्राथमिकता अनुकूलन" (Diversified Odds Ratio Preference Optimization, DORPO) नामक दो नई तकनीकों को नवीन रूप से प्रस्तुत करता है। इन दोनों तकनीकों का मुख्य लक्ष्य AI मॉडल द्वारा उत्पन्न पाठ की सीमा का विस्तार करना है, ताकि यह सुसंगतता और पठनीयता बनाए रखते हुए अधिक समृद्ध और विविध सामग्री प्रस्तुत कर सके।
शोधकर्ताओं ने बताया कि यद्यपि वर्तमान LLM तथ्यात्मक प्रश्नों के उत्तर या कोड सहायता जैसे क्षेत्रों में उत्कृष्ट प्रदर्शन करते हैं, "इष्टतम समाधान" उत्पन्न करने में सक्षम हैं, लेकिन रचनात्मक लेखन के क्षेत्र में, इसकी खुली प्रकृति के कारण, एक ही संकेत के लिए कई प्रभावी प्रतिक्रियाएँ होनी चाहिए। उदाहरण के लिए, "चंद्रमा पर एक कुत्ते के बारे में एक कहानी लिखें" जैसे संकेत के लिए, मानव अंतरिक्ष यात्रियों द्वारा चंद्रमा पर छोड़े गए पालतू कुत्ते, भविष्य में कुत्तों की अंतरिक्ष कॉलोनी के कुत्ते, या किसी विदेशी प्राणी के साथ दोस्ती करने वाले आवारा कुत्ते जैसी कई अलग-अलग कहानियाँ सोच सकते हैं।
हालांकि, निर्देश-समायोजित LLM अक्सर समान कहानी रेखाओं और विषयों में परिवर्तित हो जाते हैं। इसका मुख्य कारण यह है कि बाद के प्रशिक्षण तकनीक उपयोगकर्ता प्राथमिकता पर अधिक ध्यान केंद्रित करती हैं, न कि मौलिकता पर, लोकप्रिय लेकिन दोहराव वाले उत्तरों को मजबूत करती हैं; साथ ही, निर्देश-समायोजन परिवर्तनशीलता को भी कम कर सकता है, जिससे मॉडल "सुरक्षित" लेकिन नई विचारों से रहित प्रतिक्रियाएँ उत्पन्न करने की ओर झुकता है। इसके अलावा, मौजूदा विविधता संवर्धन तकनीकें (जैसे तापमान समायोजन) आमतौर पर केवल मॉडल अनुमान चरण में काम करती हैं, न कि मॉडल के सीखने की प्रक्रिया में। यह अंततः AI द्वारा उत्पन्न रचनात्मक लेखन को एक समान बनाता है, जिसमें आश्चर्य और गहराई का अभाव होता है।
AI मॉडल को "एक अलग रास्ता" दिखाना
इन सीमाओं को दूर करने के लिए, Midjourney की शोध टीम ने मौजूदा प्राथमिकता अनुकूलन विधियों में सुधार किया है, DDPO और DORPO को पेश किया है। इन दोनों नवाचारों का मूल "विचलन" का उपयोग करना है - अर्थात, एक प्रतिक्रिया और अन्य प्रतिक्रियाओं के बीच का अंतर - मॉडल प्रशिक्षण का मार्गदर्शन करने के लिए।
विशेष रूप से, प्रशिक्षण प्रक्रिया के दौरान, मॉडल को एक लेखन संकेत और कई संभावित उत्तर प्राप्त होते हैं। इसके बाद, प्रत्येक उत्तर की तुलना समान संकेत के तहत अन्य उत्तरों से की जाती है, और एक विचलन स्कोर की गणना की जाती है। दुर्लभ लेकिन उच्च-गुणवत्ता वाले उत्तरों को प्रशिक्षण में अधिक वजन दिया जाएगा, जिससे मॉडल को अधिक विविध उदाहरणों से सीखने के लिए प्रोत्साहित किया जाता है। प्रत्यक्ष प्राथमिकता अनुकूलन (DPO) और ऑड्स अनुपात प्राथमिकता अनुकूलन (ORPO) में विचलन को शामिल करके, मॉडल उच्च गुणवत्ता और अधिक भिन्न प्रतिक्रियाएँ उत्पन्न करना सीख सकता है। यह विधि सुनिश्चित करती है कि AI द्वारा उत्पन्न कहानियाँ एकल पूर्वानुमेय संरचना तक सीमित नहीं हैं, बल्कि मानव लेखकों की तरह व्यापक भूमिकाओं, सेटिंग्स और विषयों का पता लगा सकती हैं।
इन नई विधियों की प्रभावशीलता को सत्यापित करने के लिए, शोधकर्ताओं ने Reddit समुदाय r/writingPrompts पर डेटासेट का उपयोग करके LLM को प्रशिक्षित किया। उन्होंने Meta के Llama-3.1-8B (8 बिलियन पैरामीटर वाला एक मॉडल) और Mistral AI के Mistral-7B-v0.3 (7 बिलियन पैरामीटर वाला एक मॉडल) को आधार मॉडल के रूप में चुना।
प्रशिक्षण प्रक्रिया में पर्यवेक्षित ठीक-ठीक समायोजन (SFT) और प्राथमिकता अनुकूलन के दो चरण शामिल हैं। प्राथमिकता अनुकूलन चरण में, उन्होंने पहले मानक DPO और ORPO को आधार रेखा के रूप में उपयोग किया, और फिर विचलन-आधारित वजन पेश करने के लिए DDPO और DORPO को लागू किया। अंत में, मॉडल के प्रदर्शन का मूल्यांकन स्वचालित मूल्यांकन (अर्थ और शैली विविधता को मापना) और मानव मूल्यांकन (आउटपुट की विविधता और आकर्षण का न्याय करना, और GPT-4o और Claude3.5 की तुलना करना) द्वारा किया गया।
प्रयोग के परिणामों से पता चला है कि DDPO, आउटपुट की गुणवत्ता बनाए रखते हुए, मानक DPO से काफी बेहतर है। DDPO से लैस Llama-3.1-8B ने गुणवत्ता और विविधता के बीच सबसे अच्छा संतुलन हासिल किया, इसकी उत्पन्न प्रतिक्रियाएँ GPT-4o की तुलना में अधिक विविध थीं, साथ ही अच्छी सुसंगतता भी बनी रही। डेटासेट के आकार में कमी के बावजूद, DDPO मॉडल अभी भी एक निश्चित विविधता बनाए रखने में सक्षम था।
विभिन्न उद्योगों को सशक्त बनाना: AI रचनात्मक सामग्री की अपार क्षमता
AI द्वारा रचनात्मक पाठ उत्पन्न करने की आवश्यकता वाली कंपनियों के लिए यह शोध महत्वपूर्ण व्यावहारिक महत्व रखता है। उदाहरण के लिए, विपणन सामग्री, कॉर्पोरेट कहानी कहने और फिल्म और गेम पटकथा लेखन जैसे क्षेत्रों में, AI द्वारा उत्पन्न सामग्री की विविधता और गुणवत्ता में सुधार करना अत्यंत महत्वपूर्ण है। LLM परिनियोजन के लिए जिम्मेदार AI टीमों के लिए, गुणवत्ता सुनिश्चित करते हुए आउटपुट की विविधता को कैसे बढ़ाया जाए, यह एक महत्वपूर्ण चुनौती है। Midjourney का शोध इस समस्या को हल करने के लिए एक नया दृष्टिकोण प्रदान करता है।
यह शोध एक नई LLM प्रशिक्षण पश्चात विधि प्रस्तुत करता है जो गुणवत्ता की बलि दिए बिना रचनात्मकता को बढ़ा सकता है। यह एक व्यावहारिक विकल्प भी प्रदान करता है जो अनुमान अवधि में विविधता समायोजन (जैसे तापमान समायोजन) को बदल सकता है, विविधता को सीधे मॉडल के सीखने की प्रक्रिया में शामिल करता है। इससे अधिक आकर्षक AI अनुप्रयोग विकसित करने की उम्मीद है, जैसे AI-सहायता प्राप्त लेखन उपकरण और गतिशील रूप से प्रतिक्रियाओं को समायोजित करने वाले वर्चुअल सहायक।
AI मॉडल ऑर्केस्ट्रेशन और स्वचालन के लिए जिम्मेदार पेशेवरों के लिए, यह शोध प्रशिक्षण चरण में मॉडल को समायोजित करने के महत्व पर जोर देता है, जिससे परिनियोजन के बाद पोस्ट-प्रोसेसिंग समायोजन की आवश्यकता कम हो जाती है। यह AI-संचालित अनुप्रयोगों में अनुकूली कथा को शामिल करने का एक तरीका भी प्रदान करता है, जो सामग्री की परिवर्तनशीलता सुनिश्चित करता है, साथ ही उच्च गुणवत्ता भी बनाए रखता है। इसके अलावा, यह विधि LLM के आउटपुट को अधिक मानवीय बनाने में मदद करती है, जो इंटरैक्टिव कथा, ग्राहक बातचीत या गतिशील सामग्री निर्माण के लिए आवश्यक अनुप्रयोगों के लिए महत्वपूर्ण है।
निष्कर्ष
DDPO और DORPO की सफलता दर्शाती है कि विविधता को लक्ष्य मानकर LLM को प्रशिक्षित करने से रचनात्मक लेखन में उल्लेखनीय प्रगति हो सकती है। भविष्य में, ग्राहक-सामना करने वाले अनुप्रयोगों में प्रतिक्रिया विविधता को बढ़ाने के लिए व्यवसायिक AI मॉडल में पूर्वाग्रह-आधारित शिक्षण विधियों को एकीकृत करना, कविता, पटकथा लेखन या गेम कहानियों जैसे अन्य पीढ़ीगत कार्यों में इन विधियों के अनुप्रयोगों की खोज करना, और विविधता और निर्देश पालन क्षमता को संतुलित करने वाली मिश्रित प्रशिक्षण विधियों को विकसित करना, सभी अनुसंधान के आशाजनक क्षेत्र होंगे।
Midjourney की शोध टीम अपने कोड को सार्वजनिक करने की योजना बना रही है, जो निस्संदेह उन डेवलपर्स के लिए एक मूल्यवान संसाधन होगा जो इन तकनीकों को लागू करना चाहते हैं। इन नवीन तकनीकों को अपनाकर, AI टीमों को कठोर, सूत्रबद्ध आउटपुट पैटर्न को तोड़ने, न केवल बुद्धिमान बल्कि वास्तव में कल्पनाशील AI सिस्टम बनाने की उम्मीद है।
शोध पत्र:https://huggingface.co/papers/2503.17126