आज के डेटा विज़ुअलाइज़ेशन के क्षेत्र में, जटिल डेटा को सटीक रूप से दर्शाने वाले चार्ट बनाना अभी भी एक चुनौतीपूर्ण काम है। चार्ट को न केवल सटीक लेआउट, रंग और टेक्स्ट पोजिशन को कैप्चर करने की आवश्यकता होती है, बल्कि इन दृश्य विवरणों को कोड में बदलने की भी आवश्यकता होती है ताकि अपेक्षित डिज़ाइन को दोहराया जा सके। हालाँकि, पारंपरिक तरीके आमतौर पर सीधे दृश्य-भाषा मॉडल (VLM) जैसे GPT-4V को निर्देशित करने पर निर्भर करते हैं, जिससे जटिल दृश्य तत्वों को सिंटैक्टिक रूप से सही पायथन कोड में बदलने में कठिनाई होती है। यहां तक ​​कि छोटी सी गलती भी चार्ट को डिज़ाइन लक्ष्य तक नहीं पहुँचने का कारण बन सकती है, जो वित्तीय विश्लेषण, शैक्षणिक अनुसंधान और शैक्षिक रिपोर्ट जैसे क्षेत्रों में विशेष रूप से महत्वपूर्ण है।

इस समस्या को हल करने के लिए, UCLA (कैलिफ़ोर्निया विश्वविद्यालय, लॉस एंजिल्स), UC Merced और Adobe रिसर्च टीम ने METAL नामक एक नया ढाँचा प्रस्तुत किया है। यह सिस्टम चार्ट निर्माण कार्य को कई चरणों में विभाजित करता है जिनका प्रबंधन विशेष एजेंटों द्वारा किया जाता है।

QQ_1740983535829.png

METAL फ़्रेमवर्क में चार प्रमुख एजेंट शामिल हैं: एक जनरेटिव एजेंट, एक विज़ुअल मूल्यांकन एजेंट, एक कोड मूल्यांकन एजेंट और एक संशोधन एजेंट। जनरेटिव एजेंट प्रारंभिक पायथन कोड उत्पन्न करने के लिए जिम्मेदार है, विज़ुअल मूल्यांकन एजेंट उत्पन्न चार्ट और संदर्भ चार्ट के बीच संगति का मूल्यांकन करता है, कोड मूल्यांकन एजेंट किसी भी सिंटैक्टिक या तार्किक त्रुटियों के लिए उत्पन्न कोड की समीक्षा करता है, और संशोधन एजेंट मूल्यांकन प्रतिक्रिया के आधार पर कोड को समायोजित करता है।

METAL का मॉड्यूलर डिज़ाइन इसकी एक बड़ी खासियत है। यह दृश्य व्याख्या और कोड निर्माण कार्यों को विभिन्न एजेंटों को सौंपकर, प्रत्येक एजेंट को अपने विशिष्ट कार्य पर ध्यान केंद्रित करने की अनुमति देता है। यह दृष्टिकोण सुनिश्चित करता है कि चार्ट के दृश्य और तकनीकी तत्वों पर पूरी तरह से विचार किया जाता है और उन्हें समायोजित किया जाता है, जिससे चार्ट निर्माण की सटीकता और स्थिरता में सुधार होता है।

प्रयोगों में, METAL का प्रदर्शन ChartMIMIC डेटासेट पर मूल्यांकन किया गया था, और परिणामों से पता चला है कि यह पारंपरिक तरीकों की तुलना में टेक्स्ट स्पष्टता, चार्ट प्रकार की सटीकता, रंग स्थिरता और लेआउट सटीकता में बेहतर है। ओपन-सोर्स मॉडल LLAMA3.2-11B और क्लोज्ड-सोर्स मॉडल GPT-4O के साथ तुलना से पता चला है कि METAL द्वारा उत्पन्न चार्ट संदर्भ चार्ट के करीब सटीकता के साथ हैं।

इसके अतिरिक्त, शोध ने एबलेशन प्रयोगों के माध्यम से दृश्य और कोड मूल्यांकन तंत्र को अलग करने के महत्व पर प्रकाश डाला है। जब इन दो घटकों को एक मूल्यांकन एजेंट में मिला दिया जाता है, तो प्रदर्शन अक्सर कम हो जाता है, यह दर्शाता है कि उच्च-गुणवत्ता वाले चार्ट निर्माण के लिए विशेष मूल्यांकन विधियाँ महत्वपूर्ण हैं।

QQ_1740983555988.png

METAL विशिष्ट, पुनरावृति चरणों में कार्यों को विभाजित करके एक संतुलित बहु-एजेंट दृष्टिकोण प्रदान करता है। यह दृष्टिकोण न केवल दृश्य डिज़ाइन को पायथन कोड में सटीक रूप से बदलने को बढ़ावा देता है, बल्कि त्रुटि का पता लगाने और सुधार के लिए एक व्यवस्थित प्रक्रिया भी प्रदान करता है। कंप्यूटेशनल संसाधनों में वृद्धि के साथ, METAL का प्रदर्शन लगभग रैखिक रूप से बढ़ता है, जो उच्च सटीकता की आवश्यकता वाले अनुप्रयोगों में इसकी व्यावहारिक क्षमता प्रदान करता है।

परियोजना:https://metal-chart-generation.github.io/

मुख्य बातें:

🌟 METAL फ़्रेमवर्क UCLA, UC Merced और Adobe द्वारा संयुक्त रूप से प्रस्तुत किया गया है, जिसका उद्देश्य चार्ट निर्माण प्रक्रिया को अनुकूलित करना है।

🔍 फ़्रेमवर्क में चार विशेष एजेंट शामिल हैं, जो क्रमशः चार्ट उत्पन्न करने, मूल्यांकन करने और संशोधित करने के लिए जिम्मेदार हैं, यह सुनिश्चित करते हुए कि दृश्य और तकनीकी तत्वों को ठीक से संभाला जाता है।

📈 प्रयोगात्मक परिणाम बताते हैं कि METAL पारंपरिक तरीकों की तुलना में चार्ट निर्माण की सटीकता और स्थिरता में बेहतर है, जो इसकी अच्छी व्यावहारिक क्षमता को दर्शाता है।