कृत्रिम बुद्धिमत्ता के क्षेत्र में, ज्ञान डेटाबेस से जानकारी को सटीक रूप से प्राप्त करना हमेशा एक बड़ी चुनौती रही है। हाल ही में, कृत्रिम बुद्धिमत्ता कंपनी Anthropic ने "संदर्भ पुनर्प्राप्ति" नामक एक नई विधि का शुभारंभ किया है, जिसका उद्देश्य ज्ञान पुनर्प्राप्ति की सटीकता को बढ़ाना है। यह विधि पुनर्प्राप्ति के दौरान अधिक संदर्भ जानकारी जोड़कर एआई सिस्टम को अधिक सटीक उत्तर प्रदान करने में मदद करती है।
वर्तमान में, पुनर्प्राप्ति-संवर्धित जनरेशन (RAG) सिस्टम आमतौर पर दस्तावेजों को छोटे टुकड़ों में विभाजित करके अनुक्रमित करते हैं, जिससे महत्वपूर्ण संदर्भ जानकारी अनदेखी हो सकती है। Anthropic का समाधान प्रत्येक छोटे टुकड़े के पहले एक संक्षिप्त दस्तावेज़ सारांश जोड़ना है, जो आमतौर पर 100 शब्दों से अधिक नहीं होता है। उदाहरण के लिए, मूल पाठ खंड "कंपनी की आय पिछले तिमाही की तुलना में 3% बढ़ गई", संदर्भ प्रसंस्करण के बाद बन जाता है: "यह खंड ACME कंपनी के 2023 के दूसरे तिमाही के SEC दस्तावेज़ से है; पिछले तिमाही की आय 3.14 करोड़ डॉलर थी, और कंपनी की आय पिछले तिमाही की तुलना में 3% बढ़ गई।" इस तरीके से, Anthropic का कहना है कि उनकी नई विधि जानकारी पुनर्प्राप्ति की गलती की दर को 49% तक कम कर सकती है। यदि परिणाम पुनर्व्यवस्थित किए जाएं, तो सटीकता में वृद्धि 67% तक पहुंच सकती है।
और भी दिलचस्प बात यह है कि कॉर्नेल विश्वविद्यालय के अनुसंधान ने भी इस संदर्भ पुनर्प्राप्ति विधि का समर्थन किया है। शोधकर्ताओं ने "संदर्भ दस्तावेज़ एम्बेडिंग" (CDE) नामक एक समान तकनीक प्रस्तुत की। उनकी विधि प्रशिक्षण डेटा को पुनर्गठित करके, प्रत्येक बैच में समान लेकिन भेद करने में कठिन दस्तावेज़ों को शामिल करती है, जिससे मॉडल को सूक्ष्म भिन्नताओं को सीखने के लिए प्रेरित किया जाता है। इसके अलावा, शोधकर्ताओं ने एक द्वि-चरण एन्कोडर विकसित किया है, जो निकटवर्ती दस्तावेज़ों की जानकारी को सीधे एम्बेडिंग में शामिल करता है, जिससे मॉडल सापेक्ष शब्द आवृत्ति और अन्य संदर्भ संकेतों पर विचार कर सकता है।
“विशाल पाठ एम्बेडिंग बेंचमार्क” (MTEB) के परीक्षण में, CDE मॉडल ने अपने आकार श्रेणी में सर्वश्रेष्ठ परिणाम प्राप्त किए। प्रयोगों ने यह भी दिखाया कि CDE वित्त या चिकित्सा जैसे क्षेत्रों में छोटे विशेष डेटा सेट पर विशेष रूप से लाभकारी है, और वर्गीकरण, क्लस्टरिंग और अर्थ संबंधी समानता जैसे कार्यों में उत्कृष्ट प्रदर्शन करता है। हालांकि, शोधकर्ताओं ने यह भी指出 कि वर्तमान में यह स्पष्ट नहीं है कि CDE बड़े ज्ञान भंडार में अरबों दस्तावेज़ों पर क्या प्रभाव डालेगा, और सर्वोत्तम संदर्भ आकार और चयन पर अनुसंधान में और गहराई की आवश्यकता है।
मुख्य बिंदु:
🌟 Anthropic की "संदर्भ पुनर्प्राप्ति" विधि जानकारी पुनर्प्राप्ति की गलती की दर को 49% तक कम कर सकती है, और अन्य तकनीकों के साथ मिलकर सटीकता को और बढ़ा सकती है।
📊 कॉर्नेल विश्वविद्यालय की "संदर्भ दस्तावेज़ एम्बेडिंग" विधि विशेष क्षेत्रों में मजबूत लाभ दिखाती है, जो वर्गीकरण और क्लस्टरिंग कार्यों में सुधार कर सकती है।
🔍 भविष्य में इन विधियों को बड़े पैमाने पर ज्ञान भंडार में लागू करने और सर्वोत्तम संदर्भ प्रसंस्करण रणनीतियों की खोज के लिए और गहन अनुसंधान की आवश्यकता है।