प्राकृतिक भाषा से SQL (NL2SQL) तकनीक तेजी से विकसित हो रही है और यह प्राकृतिक भाषा प्रसंस्करण (NLP) क्षेत्र में एक महत्वपूर्ण नवाचार बन गई है। यह तकनीक उपयोगकर्ताओं को प्राकृतिक भाषा में पूछताछ को संरचित प्रश्न भाषा (SQL) बयानों में बदलने की अनुमति देती है, जो तकनीकी पृष्ठभूमि की कमी वाले उपयोगकर्ताओं और जटिल डेटाबेस के बीच बातचीत को बहुत आसान बनाती है, जिससे उन्हें मूल्यवान जानकारी प्राप्त करने में मदद मिलती है। NL2SQL तकनीक न केवल विभिन्न उद्योगों के बड़े डेटाबेस अन्वेषण के लिए नए दरवाजे खोलती है, बल्कि कार्यक्षमता और निर्णय लेने की क्षमता को भी बढ़ाती है।

image.png

हालांकि, NL2SQL के कार्यान्वयन के दौरान, प्रश्नों की सटीकता और अनुकूलनशीलता के बीच एक निश्चित संतुलन होता है। कुछ विधियाँ SQL प्रश्न उत्पन्न करते समय न तो सटीकता सुनिश्चित कर पाती हैं और न ही विभिन्न प्रकार के डेटाबेस के अनुकूल हो पाती हैं। मौजूदा कुछ समाधान बड़े भाषा मॉडल (LLMs) पर अधिक निर्भर करते हैं, जो संकेत इंजीनियरिंग के माध्यम से कई आउटपुट उत्पन्न करते हैं और सर्वोत्तम प्रश्न का चयन करते हैं, लेकिन यह विधि गणनात्मक बोझ को बढ़ा देती है, जो वास्तविक समय के अनुप्रयोगों के लिए उपयुक्त नहीं है। जबकि, सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) लक्षित SQL उत्पन्न करने में सक्षम है, लेकिन यह क्षेत्रीय अनुप्रयोगों और जटिल डेटाबेस संचालन में कठिनाइयों का सामना करती है, इसलिए एक नवोन्मेषी ढांचे की आवश्यकता है।

image.png

अलीबाबा की शोध टीम ने XiYan-SQL नामक एक क्रांतिकारी NL2SQL ढांचा प्रस्तुत किया है। यह कई जनरेटर इंटीग्रेशन रणनीतियों को संयोजित करता है, जो संकेत इंजीनियरिंग और SFT के लाभों को एक साथ लाता है। XiYan-SQL का एक प्रमुख नवाचार M-Schema का परिचय है, जो एक अर्ध-संरचित आर्किटेक्चर प्रतिनिधित्व विधि है, जो सिस्टम की डेटाबेस संरचना की समझ को बढ़ा सकती है, जिसमें डेटा प्रकार, प्राथमिक कुंजी और उदाहरण मान शामिल हैं, जिससे सटीक और संदर्भ के अनुसार SQL प्रश्न उत्पन्न करने की क्षमता में सुधार होता है।

XiYan-SQL SQL प्रश्न उत्पन्न करने और अनुकूलित करने के लिए तीन चरणों की प्रक्रिया अपनाता है।

पहले, सिस्टम आर्किटेक्चर लिंक के माध्यम से संबंधित डेटाबेस तत्वों की पहचान करता है, जिससे अतिरिक्त जानकारी को कम किया जा सके और महत्वपूर्ण संरचना पर ध्यान केंद्रित किया जा सके। फिर, उदाहरण-आधारित शिक्षण (ICL) और SFT पर आधारित जनरेटर SQL उम्मीदवार उत्पन्न करते हैं। अंत में, सिस्टम उत्पन्न SQL को अनुकूलित और छानने के लिए त्रुटि सुधार मॉडल और चयन मॉडल का उपयोग करता है, जिससे सर्वोत्तम प्रश्न का चयन सुनिश्चित होता है। XiYan-SQL इन चरणों को एक कुशल पाइपलाइन में समेकित करता है, जो पारंपरिक तरीकों से आगे बढ़ता है।

कठोर बेंचमार्क परीक्षण के बाद, XiYan-SQL ने कई मानक परीक्षण सेटों में उत्कृष्ट प्रदर्शन किया है, जैसे कि Spider परीक्षण सेट में 89.65% की कार्यान्वयन सटीकता प्राप्त की, जो पिछले शीर्ष मॉडलों से स्पष्ट रूप से आगे है।

image.png

इसके अलावा, गैर-संबंधित डेटासेट की अनुकूलनशीलता के मामले में, XiYan-SQL ने NL2GQL परीक्षण सेट में 41.20% की सटीकता के साथ उत्कृष्ट परिणाम प्राप्त किए हैं। ये परिणाम दर्शाते हैं कि XiYan-SQL विभिन्न परिदृश्यों में उत्कृष्ट लचीलापन और सटीकता रखता है।

github: https://github.com/XGenerationLab/XiYan-SQL

मुख्य बिंदु:

🌟 नवोन्मेषी आर्किटेक्चर प्रतिनिधित्व: M-Schema ने डेटाबेस संरचना की समझ को बढ़ाया और प्रश्न की सटीकता को सुधार किया।

📊 उन्नत उम्मीदवार उत्पन्न करना: XiYan-SQL विभिन्न जनरेटर का उपयोग करके विविध SQL उम्मीदवार उत्पन्न करता है, जिससे प्रश्न की गुणवत्ता में सुधार होता है।

✅ उत्कृष्ट अनुकूलनशीलता: बेंचमार्क परीक्षणों के माध्यम से, XiYan-SQL ने विभिन्न डेटाबेस में अपनी उत्कृष्टता प्रदर्शित की, नए NL2SQL ढांचे के मानक स्थापित किए।