माइक्रोसॉफ्ट के शोधकर्ताओं ने हाल ही में एक नवोन्मेषी अध्ययन जारी किया है जिसका नाम SpreadsheetLLM है, जिसका उद्देश्य बड़े भाषा मॉडल (LLM) द्वारा स्प्रेडशीट को समझने में आने वाली समस्याओं को हल करना है।

12 जुलाई को Arxiv पर प्रकाशित एक पेपर के अनुसार, SpreadsheetLLM एक कोडिंग ढांचे के माध्यम से LLM को स्प्रेडशीट की सामग्री को "समझने" में सक्षम बनाता है। यह अध्ययन स्प्रेडशीट के डेटा प्रबंधन और विश्लेषण की दक्षता को महत्वपूर्ण रूप से बढ़ाने की संभावना रखता है, और उपयोगकर्ताओं को जटिल सूत्रों और संचालन को समझे बिना AI से प्रश्न पूछने की अनुमति देता है।

image.png

पेपर का पता: https://arxiv.org/html/2407.09025v1#abstract

स्प्रेडशीट के लिए LLM की समझ में कई चुनौतियाँ शामिल हैं। पहले, स्प्रेडशीट का आकार बहुत बड़ा हो सकता है, जो LLM की एक बार में संसाधित करने की चरित्र सीमा से परे है। दूसरे, स्प्रेडशीट एक द्विआधारी लेआउट और संरचना का उपयोग करती है, जबकि LLM रैखिक, अनुक्रमिक इनपुट को संसाधित करने में माहिर है। अंत में, LLM आमतौर पर सेल के पते और विशिष्ट स्प्रेडशीट प्रारूपों को समझने के लिए विशेष प्रशिक्षण प्राप्त नहीं करते हैं।

माइक्रोसॉफ्ट की SpreadsheetLLM तकनीक दो मुख्य भागों में विभाजित है। पहला भाग SheetCompressor है, जो स्प्रेडशीट की जटिलता को कम करके इसे LLM द्वारा समझने में आसान बनाता है। SheetCompressor में तीन मॉड्यूल शामिल हैं: संरचना एंकर, टोकन की संख्या को कम करने की विधियाँ, और समान सेल को समूहित करके दक्षता बढ़ाना। इन मॉड्यूल का उपयोग करके, माइक्रोसॉफ्ट टीम ने कोडिंग के लिए आवश्यक टोकन की संख्या को 96% तक कम कर दिया और 12.3% सुधार हासिल किया। दूसरा भाग Chain of Spreadsheet है, जो LLM को संकुचित स्प्रेडशीट में संबंधित जानकारी खोजने और उत्तर उत्पन्न करने के लिए सिखाता है।

image.png

इस तकनीक का सफल उपयोग माइक्रोसॉफ्ट के Copilot की Excel में क्षमताओं को महत्वपूर्ण रूप से बढ़ाएगा, जिससे यह अधिक जटिल डेटा विश्लेषण कार्यों को संभाल सकेगा। हालाँकि, वर्तमान में इस विधि को डेटा उत्पन्न करने की सटीकता और उच्च कंप्यूटिंग संसाधनों की खपत जैसी समस्याओं का सामना करना पड़ रहा है। शोध टीम की भविष्य की योजनाओं में सेल की पृष्ठभूमि रंग का कोडिंग और सेल की सामग्री के संबंध की समझ को गहरा करना शामिल है।

मुख्य बिंदु:

📊 **स्प्रेडशीट के लिए बड़े भाषा मॉडल (LLM) की चुनौतियाँ**: स्प्रेडशीट की संरचना जटिल है और द्विआधारी लेआउट का उपयोग करती है, जो LLM द्वारा सामान्यतः संसाधित की जाने वाली रैखिक इनपुट सीमा से परे है।  

🔍 **SpreadsheetLLM तकनीक की व्याख्या**: माइक्रोसॉफ्ट ने SheetCompressor और Chain of Spreadsheet दो मुख्य तकनीकों को पेश किया है, जो LLM की स्प्रेडशीट को समझने की क्षमता को काफी बढ़ा देती हैं।  

🛠️ **माइक्रोसॉफ्ट AI उपकरणों पर प्रभाव**: SpreadsheetLLM माइक्रोसॉफ्ट के Copilot की Excel में अनुप्रयोग क्षमता को बढ़ाने की उम्मीद है, लेकिन वर्तमान में डेटा उत्पन्न करने की सटीकता और कंप्यूटिंग संसाधनों की खपत जैसी समस्याओं का सामना कर रहा है।