प्राकृतिक भाषा (NLP) के क्षेत्र में, टेक्स्ट-से-SQL (Text-to-SQL) तकनीक तेजी से विकसित हो रही है, जिससे सामान्य उपयोगकर्ता अपनी भाषा का उपयोग करके आसानी से डेटाबेस को पूछताछ कर सकते हैं, बिना SQL जैसी पेशेवर प्रोग्रामिंग भाषा को समझे। हालांकि, जैसे-जैसे डेटाबेस की संरचना अधिक जटिल होती जा रही है, प्राकृतिक भाषा को SQL आदेशों में सही ढंग से परिवर्तित करना एक महत्वपूर्ण चुनौती बन गया है।
दक्षिण चीन विश्वविद्यालय और तियानजिन विश्वविद्यालय के शोध टीमों ने हाल ही में एक नई समाधान पेश की है - MAG-SQL (मल्टी-इंटेलिजेंट जनरेशन मॉडल), जिसका उद्देश्य टेक्स्ट-से-SQL के प्रभाव को बढ़ाना है। यह विधि कई एजेंटों के सहयोग का उपयोग करती है, SQL उत्पादन की सटीकता को बढ़ाने के लिए।
MAG-SQL का कार्यप्रणाली काफी चतुराई से है। इसके मुख्य घटकों में "सॉफ्ट पैटर्न लिंकर्स", "लक्ष्य - स्थिति विघटनकर्ता", "उप SQL जनरेटर" और "उप SQL सुधारक" शामिल हैं। सबसे पहले, सॉफ्ट पैटर्न लिंकर्स सबसे संबंधित डेटाबेस कॉलम को छानते हैं, जिससे अनावश्यक जानकारी की बाधा कम होती है और SQL आदेशों की सटीकता बढ़ती है। फिर, लक्ष्य - स्थिति विघटनकर्ता जटिल प्रश्नों को छोटे उप-प्रश्नों में विभाजित करता है, जिससे उन्हें संभालना आसान होता है।
इसके बाद, उप SQL जनरेटर पिछले परिणामों के आधार पर उप SQL प्रश्न उत्पन्न करता है, यह सुनिश्चित करता है कि SQL आदेश धीरे-धीरे परिष्कृत हो। अंत में, उप SQL सुधारक उत्पन्न SQL त्रुटियों को सही करता है, समग्र सटीकता को और बढ़ाता है। इस प्रकार की बहु-चरण प्रक्रिया के कारण, MAG-SQL जटिल डेटाबेस के साथ उत्कृष्ट प्रदर्शन करता है।
हाल के परीक्षणों में, MAG-SQL ने BIRD डेटासेट पर शानदार प्रदर्शन किया। GPT-4 मॉडल का उपयोग करते समय, इस प्रणाली ने 61.08% की कार्यान्वयन सटीकता प्राप्त की, जो पारंपरिक GPT-4 की 46.35% की तुलना में काफी बेहतर है। यहां तक कि GPT-3.5 का उपयोग करने पर भी, MAG-SQL की सटीकता 57.62% तक पहुंच गई, जो पिछले MAC-SQL विधि को पीछे छोड़ती है। इसके अलावा, MAG-SQL ने एक अन्य जटिल डेटासेट Spider पर भी उत्कृष्ट प्रदर्शन किया, जो इसकी अच्छी सामान्यता को दर्शाता है।
MAG-SQL का लॉन्च न केवल टेक्स्ट-से-SQL की सटीकता को बढ़ाता है, बल्कि जटिल प्रश्नों को हल करने के लिए नए दृष्टिकोण भी प्रदान करता है। यह बहु-एजेंट ढांचा, बार-बार दोहराए जाने वाले परिष्कृत प्रसंस्करण के माध्यम से, वास्तविक अनुप्रयोगों में बड़े भाषा मॉडल की क्षमताओं को काफी बढ़ाता है, विशेष रूप से जटिल डेटाबेस और उच्च कठिनाई वाले प्रश्नों का सामना करते समय।
पेपर लिंक: https://arxiv.org/pdf/2408.07930
मुख्य बिंदु:
📊 ** सटीकता में वृद्धि **: MAG-SQL ने BIRD डेटासेट पर 61.08% की कार्यान्वयन सटीकता प्राप्त की, जो पारंपरिक GPT-4 की 46.35% से बहुत अधिक है।
🔍 ** बहु-एजेंट सहयोग **: यह विधि कई एजेंटों का उपयोग करके कार्य विभाजन करती है, जिससे SQL उत्पादन प्रक्रिया अधिक कुशल और सटीक होती है।
💡 ** व्यापक अनुप्रयोग संभावनाएँ **: MAG-SQL ने अन्य डेटासेट (जैसे Spider) पर भी उत्कृष्ट प्रदर्शन किया, जो इसकी अच्छी उपयोगिता और उपयुक्तता को दर्शाता है।