अक्टूबर में Anthropic द्वारा Claude की "कंप्यूटर उपयोग" विशेषता लॉन्च होने के बाद, AI एजेंट की क्षमताओं ने व्यापक ध्यान आकर्षित किया है। यह विशेषता Claude को पहला अग्रणी मॉडल बनाती है जो मानव के समान ग्राफिकल यूजर इंटरफेस (GUI) के माध्यम से इंटरैक्ट कर सकता है।

Claude डेस्कटॉप स्क्रीनशॉट तक पहुँच कर और कीबोर्ड और माउस संचालन के माध्यम से कार्यों को पूरा करता है, जो उपयोगकर्ताओं को API इंटरफ़ेस की आवश्यकता के बिना स्वचालित संचालन का एक सुविधाजनक तरीका प्रदान करता है।

image.png

सिंगापुर नेशनल यूनिवर्सिटी के Show Lab द्वारा किए गए एक अध्ययन में, शोधकर्ताओं ने Claude का कई कार्यों पर परीक्षण किया, जिसमें वेब खोज, कार्य प्रवाह पूरा करना, कार्यालय उत्पादकता और वीडियो गेम शामिल हैं। ये कार्य Claude की विभिन्न परिस्थितियों में क्षमताओं का परीक्षण करते हैं, जैसे कि वेबसाइट पर उत्पादों को खोजना और खरीदना, या वेबसाइट से जानकारी निकालकर उसे स्प्रेडशीट में डालना। इन परीक्षणों के माध्यम से, शोधकर्ताओं ने योजना, क्रिया और मूल्यांकन के तीन आयामों से Claude के प्रदर्शन का आकलन किया।

जटिल कार्यों को पूरा करने में, Claude का प्रदर्शन प्रभावशाली है। यह स्पष्ट योजनाएँ बनाने, चरण-दर-चरण कार्य करने और हर चरण में अपनी प्रगति का आकलन करने में सक्षम है। इसके अलावा, यह कई एप्लिकेशनों के बीच समन्वय करने में भी सक्षम है, जैसे कि जानकारी को एक वेबपृष्ठ से स्प्रेडशीट में कॉपी करना। कुछ मामलों में, Claude कार्य समाप्त होने पर परिणामों की समीक्षा भी कर सकता है, ताकि सभी चीजें लक्ष्यों के अनुरूप हों।

हालांकि, Claude से कुछ सरल गलतियाँ भी होती हैं, जिन्हें सामान्य उपयोगकर्ता आसानी से टाल सकते हैं। उदाहरण के लिए, एक कार्य में, यह सब्सक्रिप्शन पूरा नहीं कर सका क्योंकि वह संबंधित बटन को खोजने के लिए पृष्ठ को नीचे स्क्रॉल नहीं कर सका।

कुछ मामलों में, यह स्पष्ट कार्यों को पूरा करते समय, जैसे कि पाठ का चयन और प्रतिस्थापन या बुलेट पॉइंट को संख्या में बदलना, बहुत अजीब तरीके से व्यवहार करता है। इसके अलावा, कभी-कभी Claude अपनी गलतियों के प्रति अनजान रहता है, या लक्ष्यों को प्राप्त करने में विफलता के कारणों पर गलत निष्कर्ष निकालता है।

शोधकर्ताओं ने यह संकेत दिया है कि Claude की आत्म-मूल्यांकन तंत्र में कमी शायद इन गलतियों का कारण हो सकती है, और भविष्य में GUI एजेंट फ्रेमवर्क को सुधारने की आवश्यकता हो सकती है ताकि अधिक सख्त आत्म-मूल्यांकन मॉड्यूल जोड़े जा सकें। अनुसंधान परिणामों ने यह भी दिखाया है कि मौजूदा GUI एजेंट मानवों द्वारा कंप्यूटर के उपयोग में बुनियादी सूक्ष्मताओं को पूरी तरह से दोहराने में असमर्थ हैं।

व्यापारों के लिए, सरल पाठ वर्णन के माध्यम से कार्यों को स्वचालित करने की क्षमता बहुत आकर्षक है, लेकिन वर्तमान में यह तकनीक बड़े पैमाने पर उपयोग के लिए परिपक्वता तक नहीं पहुंची है। मॉडल का व्यवहार अस्थिर है, जो संवेदनशील अनुप्रयोगों में अप्रत्याशित परिणाम पैदा कर सकता है। साथ ही, मानव-निर्मित इंटरफेस के माध्यम से संचालन करना कार्यों को पूरा करने का सबसे तेज़ तरीका नहीं है।

व्यापक तैनाती से पहले, व्यवसायों को बड़े भाषा मॉडल (LLM) को माउस और कीबोर्ड को अधिकृत करने के सुरक्षा जोखिमों पर ध्यान देना चाहिए। उदाहरण के लिए, कुछ शोध दिखाते हैं कि वेब प्रॉक्सी ऐसे आक्रमणों के प्रति संवेदनशील होते हैं जिन्हें मानव आसानी से नजरअंदाज कर सकता है। फिर भी, Claude जैसे उपकरण उत्पाद टीमों को विचारों का अन्वेषण करने, समाधान में सुधार करने में मदद कर सकते हैं, जिससे नए फ़ीचर्स या सेवाओं के विकास से पहले समय और लागत की बचत होती है।

मुख्य बिंदु:

1. 🤖 Claude जटिल कार्यों के स्वचालन के लिए ग्राफिकल यूजर इंटरफेस के माध्यम से उत्कृष्टता दिखाता है।

2. ⚠️ Claude सरल कार्यों को पूरा करते समय गलतियाँ करता है, जो इसके आत्म-मूल्यांकन तंत्र की कमी को दर्शाता है।

3. 💼 वर्तमान में, यह तकनीक बड़े पैमाने पर उपयोग के लिए उपयुक्त नहीं है, व्यवसायों को संभावित सुरक्षा जोखिमों के प्रति सतर्क रहना चाहिए।