हाल ही में, अलीबाबा टोंगयी प्रयोगशाला ने अपने नवीनतम शोध परिणाम - ViDoRAG को ओपन सोर्स करने की घोषणा की है। यह एक ऐसा RAG (प्रतिध्यापक-संवर्धित जनरेटर) सिस्टम है जो विशेष रूप से दृश्य दस्तावेज़ समझ के लिए डिज़ाइन किया गया है। GPT-4o मॉडल पर ViDoRAG के परीक्षण में, इसकी सटीकता 79.4% तक पहुँच गई है, जो पारंपरिक RAG सिस्टम की तुलना में 10% से अधिक की वृद्धि है। यह सफलता दृश्य दस्तावेज़ प्रसंस्करण के क्षेत्र में एक महत्वपूर्ण कदम है, जो जटिल दस्तावेज़ समझ में कृत्रिम बुद्धिमत्ता के अनुप्रयोग के लिए नई संभावनाएँ प्रदान करती है।
बहु-बुद्धिमान एजेंट ढाँचा दृश्य दस्तावेज़ समझ को सशक्त बनाता है
ViDoRAG एक पारंपरिक एकल मॉडल नहीं है, बल्कि एक अभिनव बहु-बुद्धिमान एजेंट ढाँचा डिज़ाइन का उपयोग करता है। बताया गया है कि यह सिस्टम गतिशील पुनरावृति तर्क एजेंटों (Dynamic Iterative Reasoning Agents) और GMM (गाऊसी मिश्रण मॉडल) आधारित मिश्रित पुनर्प्राप्ति तकनीक को जोड़ता है। यह विधि ViDoRAG को छवियों और पाठ वाले दृश्य दस्तावेज़ों को संसाधित करते समय, महत्वपूर्ण जानकारी को अधिक सटीक रूप से निकालने और तर्क करने में सक्षम बनाती है। पारंपरिक RAG सिस्टम की केवल पाठ पुनर्प्राप्ति पर निर्भरता की सीमा के विपरीत, ViDoRAG बहु-मोडल डेटा संलयन के माध्यम से प्रदर्शन में उल्लेखनीय वृद्धि करता है।
टोंगयी प्रयोगशाला ने अपने प्रकाशित शोध पत्र और कोड भंडार में ViDoRAG के कार्य सिद्धांत का विस्तृत विवरण दिया है। इसका मूल कई बुद्धिमान एजेंटों के सहयोग से पुनर्प्राप्ति और पीढ़ी की प्रक्रिया को गतिशील रूप से समायोजित करना है, जिससे जटिल परिस्थितियों में "भ्रम" घटना (अर्थात मॉडल द्वारा गलत या मनगढ़ंत सामग्री उत्पन्न करना) को कम किया जा सके और उत्तर की विश्वसनीयता और संदर्भ-संबंधितता में वृद्धि हो सके।
प्रदर्शन में सफलता: सटीकता में 10% से अधिक की वृद्धि
GPT-4o पर इस सिस्टम की सटीकता 79.4% तक पहुँच गई है, यह संख्या न केवल इसके उत्कृष्ट प्रदर्शन को दर्शाती है, बल्कि इसकी तुलना पारंपरिक RAG सिस्टम से भी करती है। पारंपरिक RAG सिस्टम पाठ पीढ़ी कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन दृश्य दस्तावेज़ों को संसाधित करते समय अक्सर एकल-मोडल पुनर्प्राप्ति क्षमता से सीमित होते हैं, और उनकी सटीकता आमतौर पर कम स्तर पर होती है। जबकि ViDoRAG दृश्य जानकारी और पाठ जानकारी के गहन एकीकरण को शुरू करके, सटीकता में 10 प्रतिशत अंक से अधिक की वृद्धि करता है। यह प्रगति उन परिदृश्यों के लिए महत्वपूर्ण है जहाँ उच्च-सटीकता वाले दस्तावेज़ समझ की आवश्यकता होती है, जैसे कि कानूनी दस्तावेज़ विश्लेषण, चिकित्सा रिपोर्ट की व्याख्या और व्यावसायिक डेटा प्रसंस्करण।
अलीबाबा टोंगयी प्रयोगशाला द्वारा ViDoRAG को ओपन सोर्स करने के कदम ने ट्विटर पर भी चर्चाएँ छेड़ दी हैं। उपयोगकर्ताओं का मानना है कि इस सिस्टम को सार्वजनिक करना न केवल AI क्षेत्र में अलीबाबा की तकनीकी क्षमता को दर्शाता है, बल्कि वैश्विक डेवलपर्स और शोधकर्ताओं के लिए एक बहुमूल्य संसाधन भी प्रदान करता है। शोध पत्र और कोड (संबंधित लिंक ट्विटर पोस्ट में साझा किए गए हैं) को सार्वजनिक करके, ViDoRAG दृश्य दस्तावेज़ RAG तकनीक के अनुसंधान और अनुप्रयोग को तेज करने और बहु-मोडल AI सिस्टम के आगे विकास को बढ़ावा देने में मदद कर सकता है।
ViDoRAG का प्रकाशन और ओपन सोर्स करना निस्संदेह RAG तकनीक के लिए नए रास्ते खोलता है। दृश्य दस्तावेज़ प्रसंस्करण की बढ़ती माँग के साथ, ViDoRAG की उपस्थिति शायद केवल एक शुरुआत है, और भविष्य में हम इसी तरह के और भी नवीन सिस्टम देख सकते हैं।
परियोजना:https://github.com/Alibaba-NLP/ViDoRAG