हाल के वर्षों में, बड़े भाषा मॉडल (LLMs) डेटा प्रबंधन के क्षेत्र में व्यापक ध्यान आकर्षित कर रहे हैं, और इनका उपयोग डेटा एकीकरण, डेटाबेस ट्यूनिंग, क्वेरी ऑप्टिमाइजेशन और डेटा सफाई जैसे कार्यों में बढ़ रहा है। हालांकि, असंरचित डेटा, विशेष रूप से जटिल दस्तावेजों को संभालने में कई चुनौतियों का सामना करना पड़ता है।
वर्तमान में कुछ LLM आधारित असंरचित डेटा प्रोसेसिंग ढांचे अक्सर लागत को कम करने पर अधिक ध्यान केंद्रित करते हैं, जबकि प्रोसेसिंग की सटीकता बढ़ाने के मुद्दे को नजरअंदाज करते हैं। यह समस्या जटिल कार्यों के विश्लेषण के दौरान विशेष रूप से स्पष्ट होती है, क्योंकि LLM द्वारा आउटपुट किए गए परिणाम अक्सर उपयोगकर्ता की विशिष्ट आवश्यकताओं को सटीक रूप से पूरा नहीं करते।
कैलिफोर्निया विश्वविद्यालय, बर्कले के एक शोध रिपोर्टिंग प्रोजेक्ट का उदाहरण लें, जहां शोधकर्ता रिकॉर्ड अनुरोधों के माध्यम से प्राप्त पुलिस रिकॉर्ड का विश्लेषण करना चाहते हैं, ताकि पुलिस अधिकारियों के अनुचित व्यवहार और संभावित प्रक्रियात्मक उल्लंघनों को उजागर किया जा सके। इस कार्य को पुलिस अनुचित व्यवहार पहचान (PMI) कहा जाता है, जिसमें विभिन्न प्रकार के दस्तावेजों को संभालना, प्रमुख जानकारी को निकालना और संक्षेपित करना शामिल है, जबकि कई दस्तावेजों में डेटा को संक्षिप्त किया जाता है, जिससे विस्तृत व्यवहार सारांश उत्पन्न होता है। मौजूदा विधियाँ आमतौर पर प्रत्येक दस्तावेज को एक बार LLM के माध्यम से प्रोसेस करती हैं, जो सटीकता के मामले में अक्सर अपर्याप्त होती है, विशेष रूप से जब दस्तावेज की लंबाई LLM की संदर्भ सीमा से अधिक होती है, महत्वपूर्ण जानकारी छूट सकती है।
इन समस्याओं को हल करने के लिए, कैलिफोर्निया विश्वविद्यालय, बर्कले और कोलंबिया विश्वविद्यालय की शोध टीम ने DocETL नामक एक नवोन्मेषी प्रणाली का प्रस्ताव दिया है। DocETL जटिल दस्तावेज़ प्रोसेसिंग प्रक्रियाओं को अनुकूलित करने के लिए डिज़ाइन किया गया है, जो मौजूदा LLM की सीमाओं को हल करता है। यह प्रणाली एक बयानात्मक इंटरफेस प्रदान करती है, जो उपयोगकर्ताओं को प्रोसेसिंग प्रक्रियाओं को लचीले ढंग से परिभाषित करने की अनुमति देती है, और एजेंट आधारित ढांचे का उपयोग करके स्वचालित अनुकूलन करती है। DocETL की प्रमुख विशेषताओं में LLM कार्यों के लिए अनुकूलित लॉजिक री-राइट प्रक्रिया, एजेंट-निर्देशित योजना मूल्यांकन तंत्र, और एक कुशल अनुकूलन एल्गोरिदम शामिल है, जो सबसे संभावित प्रोसेसिंग योजनाओं की पहचान करने में मदद करता है।
पुलिस अनुचित व्यवहार पहचान कार्य का मूल्यांकन करते समय, DocETL ने कैलिफोर्निया पुलिस विभाग से 227 दस्तावेजों का एक सेट लिया, जो LLM संदर्भ सीमा से अधिक दस्तावेज़ लंबाई जैसी कई चुनौतियों का सामना कर रहा था। विभिन्न पाइपलाइन रूपांतरों के माध्यम से मूल्यांकन करने पर, DocETL ने जटिल दस्तावेज़ प्रोसेसिंग कार्यों में अद्वितीय क्षमता प्रदर्शित की।
मानव मूल्यांकन और LLM समीक्षा से पता चला है कि DocETL की आउटपुट सटीकता पारंपरिक विधियों की तुलना में 1.34 गुना बढ़ी है, जो इस प्रणाली के जटिल दस्तावेज़ कार्यों को संभालने में महत्व और प्रभावशीलता को दर्शाती है।
संक्षेप में, DocETL एक नवोन्मेषी बयानात्मक प्रणाली के रूप में, न केवल जटिल दस्तावेज़ प्रोसेसिंग में कई समस्याओं को प्रभावी ढंग से हल कर सकती है, बल्कि भविष्य के अनुसंधान और अनुप्रयोगों के लिए एक मजबूत आधार भी प्रदान करती है।
पेपर: https://arxiv.org/abs/2410.12189v1
प्रोजेक्ट: https://github.com/ucbepic/docetl
महत्वपूर्ण बिंदु:
🌟 LLM जटिल दस्तावेजों को संभालने में सटीकता की कमी का सामना कर रहे हैं, जिसमें महत्वपूर्ण चुनौतियाँ हैं।
📄 DocETL प्रणाली दस्तावेज़ प्रोसेसिंग के लिए लचीला बयानात्मक इंटरफेस और स्वचालित अनुकूलन कार्यक्षमता प्रदान करती है।
🤖 मानव मूल्यांकन के माध्यम से, DocETL आउटपुट गुणवत्ता में उल्लेखनीय सुधार हुआ है, जिसमें 1.34 गुना वृद्धि हुई है।