आधुनिक संबंध डेटाबेस में, कार्डिनलिटी अनुमान (CE) एक महत्वपूर्ण भूमिका निभाता है। सरल शब्दों में, कार्डिनलिटी अनुमान का मतलब है यह भविष्यवाणी करना कि डेटाबेस क्वेरी कितने मध्य परिणाम लौटाएगी। यह भविष्यवाणी क्वेरी ऑप्टिमाइज़र की कार्यान्वयन योजना के चयन पर बड़ा प्रभाव डालती है, जैसे कि जोड़ने के क्रम का निर्णय, क्या अनुक्रमणिका का उपयोग करना है और सबसे अच्छा जोड़ने की विधि का चयन। यदि कार्डिनलिटी अनुमान सटीक नहीं है, तो कार्यान्वयन योजना में बड़ी कमी आ सकती है, जिससे क्वेरी की गति बहुत धीमी हो जाती है, जो डेटाबेस की समग्र प्रदर्शन को गंभीर रूप से प्रभावित करती है।
हालांकि, मौजूदा कार्डिनलिटी अनुमान विधियों में कई सीमाएँ हैं। पारंपरिक CE तकनीक कुछ सरलीकृत धारणा पर निर्भर करती है, अक्सर जटिल क्वेरी की कार्डिनलिटी का सटीक अनुमान लगाने में विफल रहती है, विशेष रूप से जब कई तालिकाओं और शर्तों का संबंध होता है। हालांकि, शिक्षण-आधारित CE मॉडल बेहतर सटीकता प्रदान कर सकते हैं, लेकिन उनका उपयोग प्रशिक्षण समय की लंबाई, बड़े डेटा सेट की आवश्यकता और प्रणालीगत मानक मूल्यांकन की कमी जैसी सीमाओं से प्रभावित होता है।
इस अंतर को भरने के लिए, Google की अनुसंधान टीम ने CardBench पेश किया, जो एक नया मानक परीक्षण ढांचा है। CardBench में 20 से अधिक वास्तविक दुनिया के डेटाबेस और हजारों क्वेरी शामिल हैं, जो पिछले मानकों से बहुत अधिक हैं। यह शोधकर्ताओं को विभिन्न परिस्थितियों में विभिन्न शिक्षण-आधारित CE मॉडलों का व्यवस्थित रूप से मूल्यांकन और तुलना करने की अनुमति देता है। यह मानक तीन मुख्य सेटिंग्स का समर्थन करता है: उदाहरण-आधारित मॉडल, शून्य-नमूना मॉडल और सूक्ष्म-समायोजन मॉडल, जो विभिन्न प्रशिक्षण आवश्यकताओं के लिए उपयुक्त हैं।
CardBench का डिज़ाइन कई उपकरणों को भी शामिल करता है, जो आवश्यक डेटा सांख्यिकी की गणना कर सकते हैं, वास्तविक SQL क्वेरी उत्पन्न कर सकते हैं, और CE मॉडल के प्रशिक्षण के लिए एनोटेटेड क्वेरी ग्राफ़ बना सकते हैं।
यह मानक परीक्षण दो सेट प्रशिक्षण डेटा प्रदान करता है: एक सेट एकल तालिका क्वेरी के लिए कई फ़िल्टर शर्त वाले वाक्यांशों के लिए, और दूसरा सेट दो तालिकाओं के बाइनरी जुड़ाव क्वेरी के लिए। इस मानक परीक्षण में 9125 एकल तालिका क्वेरी और 8454 बाइनरी जुड़ाव क्वेरी शामिल हैं, जो छोटे डेटा सेट में से एक के लिए उपयुक्त हैं, जिससे मॉडल मूल्यांकन के लिए एक मजबूत और चुनौतीपूर्ण वातावरण सुनिश्चित होता है। Google BigQuery से प्राप्त प्रशिक्षण डेटा लेबलिंग के लिए 7 CPU वर्ष के क्वेरी निष्पादन समय की आवश्यकता होती है, जो इस मानक परीक्षण के निर्माण में महत्वपूर्ण गणना निवेश को उजागर करता है। इन डेटा सेटों और उपकरणों को प्रदान करके, CardBench नए CE मॉडलों के विकास और परीक्षण के लिए शोधकर्ताओं की बाधाओं को कम करता है।
CardBench का उपयोग करके प्रदर्शन मूल्यांकन में, सूक्ष्म-समायोजन मॉडल का प्रदर्शन विशेष रूप से उल्लेखनीय है। हालांकि शून्य-नमूना मॉडल अनुपस्थित डेटा सेट पर सटीकता बढ़ाने में कठिनाई का सामना करते हैं, विशेष रूप से जटिल क्वेरी में जुड़ाव से संबंधित, सूक्ष्म-समायोजन मॉडल उदाहरण-आधारित विधियों के समान सटीकता प्राप्त कर सकते हैं, जबकि प्रशिक्षण डेटा बहुत कम होता है। उदाहरण के लिए, सूक्ष्म-समायोजित ग्राफ़ न्यूरल नेटवर्क (GNN) मॉडल ने बाइनरी जुड़ाव क्वेरी में 1.32 की मध्य q त्रुटि और 95 वें प्रतिशतile की q त्रुटि 120 प्राप्त की, जो शून्य-नमूना मॉडल से स्पष्ट रूप से बेहतर है। परिणाम बताते हैं कि 500 क्वेरियों के साथ भी, सूक्ष्म-समायोजित पूर्व-प्रशिक्षित मॉडल अपनी प्रदर्शन में महत्वपूर्ण सुधार कर सकते हैं। यह उन्हें उन व्यावहारिक अनुप्रयोगों के लिए उपयुक्त बनाता है जहाँ प्रशिक्षण डेटा सीमित हो सकता है।
CardBench का लॉन्च शिक्षण-आधारित कार्डिनलिटी अनुमान के क्षेत्र में नई उम्मीद लेकर आया है, जिससे शोधकर्ताओं को अपने मॉडलों का अधिक प्रभावी ढंग से मूल्यांकन और सुधार करने में मदद मिलती है, जिससे इस महत्वपूर्ण क्षेत्र का आगे विकास हो सके।
पेपर का लिंक: https://arxiv.org/abs/2408.16170
मुख्य बिंदुओं को उजागर करना:
- 📊 CardBench एक नया मानक परीक्षण ढांचा है, जिसमें 20 वास्तविक डेटाबेस और हजारों क्वेरी शामिल हैं, जो शिक्षण-आधारित कार्डिनलिटी अनुमान मॉडलों के प्रणालीगत मूल्यांकन का समर्थन करता है।
- 🛠️ यह मानक डेटा सांख्यिकी की गणना, SQL क्वेरी उत्पन्न करने और क्वेरी ग्राफ़ बनाने के लिए उपकरण प्रदान करता है, जिससे शोधकर्ताओं के विकास की बाधाएँ कम होती हैं।
- 🚀 सूक्ष्म-समायोजन मॉडल प्रदर्शन मूल्यांकन में उत्कृष्टता दिखाते हैं, जो सीमित प्रशिक्षण डेटा के साथ पारंपरिक मॉडलों के समान सटीकता प्राप्त करने में सक्षम होते हैं, जो व्यावहारिक अनुप्रयोग की संभावनाओं को दर्शाता है।