बड़े भाषा मॉडल (LLM) का उदय कृत्रिम बुद्धिमत्ता अनुप्रयोगों में क्रांतिकारी परिवर्तन लाया है, हालांकि, वे तालिका डेटा को संभालने में स्पष्ट कमी दिखाते हैं। झेजियांग यूनिवर्सिटी के कंप्यूटिंग इनोवेशन रिसर्च इंस्टीट्यूट की शोध टीम ने इस समस्या का समाधान करने के लिए TableGPT2 नामक एक नई मॉडल पेश की है, जो सीधे और प्रभावी ढंग से तालिका डेटा को एकीकृत और संसाधित कर सकती है, जिससे व्यावसायिक बुद्धिमत्ता (BI) और अन्य डेटा-संचालित अनुप्रयोगों के लिए नए संभावनाओं का मार्ग प्रशस्त होता है।

TableGPT2 का मुख्य नवाचार इसके अद्वितीय तालिका एन्कोडर में है, जिसे तालिका की संरचना जानकारी और सेल सामग्री जानकारी को कैप्चर करने के लिए विशेष रूप से डिज़ाइन किया गया है, जिससे मॉडल की वास्तविक अनुप्रयोगों में सामान्य धुंधले प्रश्नों, गायब कॉलम नामों और असामान्य तालिकाओं को संभालने की क्षमता बढ़ती है। TableGPT2 Qwen2.5 आर्किटेक्चर पर आधारित है और इसे बड़े पैमाने पर पूर्व-प्रशिक्षण और सूक्ष्म-प्रशिक्षण के माध्यम से प्रशिक्षित किया गया है, जिसमें 59.38 लाख से अधिक तालिकाएं और 23.6 लाख उच्च गुणवत्ता वाले प्रश्न-तालिका-आउटपुट युग्म शामिल हैं, जो पहले के अनुसंधान में तालिका से संबंधित डेटा के आकार में अभूतपूर्व है।

image.png

TableGPT2 की एन्कोडिंग और तर्क क्षमताओं को बढ़ाने के लिए, शोधकर्ताओं ने इसके लिए निरंतर पूर्व-प्रशिक्षण (CPT) किया, जिसमें 80% डेटा को ध्यानपूर्वक एनोटेटेड कोड के रूप में पेश किया गया, ताकि इसकी मजबूत एन्कोडिंग क्षमताएं सुनिश्चित की जा सकें। इसके अलावा, उन्होंने मॉडल की तर्क क्षमताओं को बढ़ाने के लिए विशिष्ट क्षेत्र ज्ञान वाली पाठ्यपुस्तकों और बड़ी मात्रा में तर्क डेटा भी एकत्रित किया। अंतिम CPT डेटा में 86 अरब सख्ती से चयनित शब्दांश शामिल हैं, जो TableGPT2 को जटिल BI कार्यों और अन्य संबंधित कार्यों को संभालने के लिए आवश्यक एन्कोडिंग और तर्क क्षमताएं प्रदान करता है।

TableGPT2 की विशेष BI कार्यों और परिदृश्यों के अनुकूलन की सीमाओं को दूर करने के लिए, शोधकर्ताओं ने इसके लिए पर्यवेक्षित सूक्ष्म-प्रशिक्षण (SFT) किया। उन्होंने विभिन्न महत्वपूर्ण और वास्तविक परिदृश्यों को कवर करने वाला एक डेटा सेट बनाया, जिसमें बहु-चरण संवाद, जटिल तर्क, उपकरण उपयोग और उच्च व्यावसायिकता वाले प्रश्न शामिल हैं। यह डेटा सेट मानव द्वारा एनोटेटेड और विशेषज्ञ-प्रेरित स्वचालित एनोटेशन प्रक्रियाओं को मिलाकर डेटा की गुणवत्ता और प्रासंगिकता सुनिश्चित करता है। SFT प्रक्रिया में कुल 23.6 लाख नमूनों का उपयोग किया गया, जिससे मॉडल को और बेहतर बनाया गया, ताकि वह BI और अन्य तालिका-आधारित वातावरण की विशिष्ट आवश्यकताओं को पूरा कर सके।

TableGPT2 ने एक नवोन्मेषी सेमांटिक तालिका एन्कोडर भी पेश किया है, जो पूरे तालिका को इनपुट के रूप में लेता है और प्रत्येक कॉलम के लिए एक संक्षिप्त एम्बेडिंग वेक्टर का एक सेट उत्पन्न करता है। यह आर्किटेक्चर तालिका डेटा की अद्वितीय विशेषताओं के लिए अनुकूलित है, जो द्विदिश ध्यान तंत्र और स्तरित विशेषता निष्कर्षण प्रक्रिया के माध्यम से पंक्तियों और कॉलमों के बीच संबंधों को प्रभावी ढंग से पकड़ता है। इसके अतिरिक्त, सारणीकरण शिक्षण विधि का उपयोग किया गया है, जिससे मॉडल को अर्थपूर्ण, संरचना-संवेदनशील तालिका अर्थ प्रतिनिधित्व सीखने के लिए प्रेरित किया जाता है।

TableGPT2 को व्यावसायिक स्तर के डेटा विश्लेषण उपकरणों के साथ निर्बाध एकीकरण के लिए, शोधकर्ताओं ने एक प्रॉक्सी कार्यप्रवाह रनटाइम ढांचा भी डिज़ाइन किया है। इस ढांचे में तीन मुख्य घटक शामिल हैं: रनटाइम प्रॉम्प्ट इंजीनियरिंग, सुरक्षित कोड सैंडबॉक्स, और प्रॉक्सी मूल्यांकन मॉड्यूल, जो मिलकर प्रॉक्सी की क्षमताओं और विश्वसनीयता को बढ़ाते हैं। कार्यप्रवाह मॉड्यूलर चरणों (इनपुट मानकीकरण, प्रॉक्सी निष्पादन और उपकरण कॉल) के माध्यम से जटिल डेटा विश्लेषण कार्यों का समर्थन करता है, ये चरण प्रॉक्सी के प्रदर्शन को प्रबंधित और मॉनिटर करने के लिए मिलकर काम करते हैं। उच्च प्रभावी संदर्भ पुनर्प्राप्ति के लिए पुनर्प्राप्ति बढ़ी हुई पीढ़ी (RAG) और सुरक्षित निष्पादन के लिए कोड सैंडबॉक्स का एकीकरण करते हुए, यह ढांचा सुनिश्चित करता है कि TableGPT2 वास्तविक समस्याओं में सटीक, संदर्भ-संबंधित अंतर्दृष्टि प्रदान करता है।

शोधकर्ताओं ने TableGPT2 का व्यापक मूल्यांकन विभिन्न व्यापक रूप से उपयोग किए जाने वाले तालिका और सामान्य मानक परीक्षणों में किया, परिणाम बताते हैं कि TableGPT2 तालिका समझने, संसाधित करने और तर्क करने में उत्कृष्टता दिखाता है, 70 अरब पैरामीटर मॉडल की औसत प्रदर्शन में 35.20% की वृद्धि हुई, 720 अरब पैरामीटर मॉडल की औसत प्रदर्शन में 49.32% की वृद्धि हुई, जबकि मजबूत सामान्य प्रदर्शन को बनाए रखा। निष्पक्ष मूल्यांकन के लिए, उन्होंने केवल TableGPT2 की तुलना ओपन-सोर्स मानक तटस्थ मॉडलों (जैसे Qwen और DeepSeek) से की, जिससे विभिन्न कार्यों पर मॉडल के संतुलित, बहु-कार्यात्मक प्रदर्शन की सुनिश्चितता हुई, बिना किसी एकल मानक परीक्षण में अधिकतम फिटिंग किए। उन्होंने एक नए मानक परीक्षण - RealTabBench को पेश किया और आंशिक रूप से जारी किया, जो असामान्य तालिकाओं, अनाम फ़ील्डों और जटिल प्रश्नों पर जोर देता है, जो वास्तविक परिदृश्यों के अधिक अनुरूप है।

हालांकि TableGPT2 ने प्रयोगों में अत्याधुनिक प्रदर्शन हासिल किया है, लेकिन वास्तविक दुनिया के BI वातावरण में LLM को तैनात करने में अभी भी चुनौतियाँ हैं। शोधकर्ताओं ने भविष्य के अनुसंधान दिशा-निर्देशों को निम्नलिखित रूप में बताया:

विशिष्ट क्षेत्र एन्कोडिंग: LLM को व्यवसाय विशिष्ट क्षेत्र विशेष भाषा (DSL) या छद्म कोड के अनुकूल तेजी से बनाने की क्षमता प्रदान करना, ताकि व्यवसाय डेटा अवसंरचना की विशिष्ट आवश्यकताओं को बेहतर ढंग से पूरा किया जा सके।

बहु-प्रॉक्सी डिज़ाइन: यह पता लगाना कि कैसे प्रभावी ढंग से कई LLM को एक एकीकृत प्रणाली में एकीकृत किया जाए, ताकि वास्तविक अनुप्रयोगों की जटिलता को संभाला जा सके।

बहु-कार्यात्मक तालिका प्रसंस्करण: मॉडल की असामान्य तालिकाओं को संभालने की क्षमता में सुधार करना, जैसे कि Excel और Pages में सामान्यतः पाए जाने वाले विलय सेल और असंगत संरचना, ताकि वास्तविक दुनिया में विभिन्न प्रकार के तालिका डेटा को बेहतर ढंग से संभाला जा सके।

TableGPT2 का शुभारंभ तालिका डेटा को संभालने में LLM की प्रगति का एक महत्वपूर्ण संकेत है, जो व्यावसायिक बुद्धिमत्ता और अन्य डेटा-संचालित अनुप्रयोगों के लिए नए संभावनाओं का मार्ग प्रशस्त करता है। विश्वास है कि अनुसंधान की निरंतरता के साथ, TableGPT2 भविष्य के डेटा विश्लेषण क्षेत्र में एक महत्वपूर्ण भूमिका निभाएगा।

पेपर का पता: https://arxiv.org/pdf/2411.02059v1