智谱技术团队 ने हाल ही में GLM तकनीक टीम के शोध成果 पर आधारित एक नया उत्पाद लॉन्च किया है - AutoGLM, जो एक एजेंट है, जो मानव के मोबाइल फोन पर कार्यों का अनुकरण कर सकता है। AutoGLM का लॉन्च "Phone Use" क्षेत्र में आर्टिफिशियल इंटेलिजेंस की प्रगति का प्रतीक है, जिससे AI के अनुप्रयोग लोगों के दैनिक जीवन के करीब आते हैं।
AutoGLM कई कार्यों को पूरा कर सकता है, जैसे कि WeChat पर लाइक और टिप्पणी करना, Taobao पर पिछले ऑर्डर का उत्पाद खरीदना, Ctrip पर होटल बुक करना, 12306 पर ट्रेन टिकट खरीदना, और Meituan पर फूड डिलीवरी ऑर्डर करना। इसके अनुप्रयोग के दृश्य केवल यहीं तक सीमित नहीं हैं, सिद्धांत रूप में, AutoGLM किसी भी दृश्य इलेक्ट्रॉनिक उपकरण पर मानव द्वारा किए जाने वाले किसी भी कार्य को पूरा कर सकता है, संचालन की तार्किकता मानव के समान है, और इसे जटिल कार्य प्रवाह निर्माण की आवश्यकता नहीं है।
वर्तमान में, उपयोगकर्ता "智谱清言" प्लगइन को स्थापित करके AutoGLM-Web का अनुभव कर सकते हैं, जो एक ब्राउज़र सहायक है, जो उपयोगकर्ता को वेब पेज पर जाने, क्लिक करने, और वेबसाइट पर स्वचालित रूप से उन्नत खोज, सारांश और सामग्री उत्पादन पूरा करने का अनुकरण कर सकता है। इसके अलावा, AutoGLM ने Android सिस्टम पर आंतरिक परीक्षण के लिए आवेदन खोला है और Honor जैसे मोबाइल निर्माताओं के साथ गहन सहयोग किया है।
AutoGLM की तकनीक "बुनियादी बुद्धिमान एजेंट डिकपलिंग मध्यवर्ती इंटरफेस" और "स्व-संवर्धन ऑनलाइन पाठ्यक्रम सुदृढीकरण सीखने का ढांचा" पर आधारित है, जो बड़े मॉडल एजेंट के कार्य योजना और क्रिया निष्पादन में क्षमता संघर्ष, प्रशिक्षण कार्य और डेटा की कमी, फीडबैक संकेतों की कमी और रणनीति वितरण भटकाव जैसी समस्याओं को हल करता है। AutoGLM लगातार आत्म-सुधार कर सकता है, और अपने प्रदर्शन को स्थिर रूप से बढ़ा सकता है, जैसे कि एक व्यक्ति अपने विकास के दौरान नए कौशल प्राप्त करता है।
तकनीकी चुनौतियों के संदर्भ में, AutoGLM ने "क्रिया निष्पादन" की सटीकता और "कार्य योजना" की लचीलापन की समस्याओं को हल किया है। इसने "बुनियादी बुद्धिमान एजेंट डिकपलिंग मध्यवर्ती इंटरफेस" डिजाइन के माध्यम से "कार्य योजना" और "क्रिया निष्पादन" के दो चरणों को प्राकृतिक भाषा मध्यवर्ती इंटरफेस के माध्यम से डिकपल किया, जिससे एजेंट की क्षमताओं में अत्यधिक वृद्धि हुई। साथ ही, AutoGLM ने "स्व-संवर्धन ऑनलाइन पाठ्यक्रम सुदृढीकरण सीखने का ढांचा" अपनाया, जो वास्तविक ऑनलाइन वातावरण में बड़े मॉडल एजेंट की Web और Phone वातावरण में क्षमताओं को सीखने और बढ़ाने में मदद करता है।
AutoGLM ने Phone Use और Web Browser Use दोनों में महत्वपूर्ण प्रदर्शन सुधार प्राप्त किया है, और AndroidLab परीक्षण मानक पर GPT-4o और Claude-3.5-Sonnet के प्रदर्शन को पार कर लिया है। WebArena-Lite परीक्षण मानक में, AutoGLM ने GPT-4o के मुकाबले लगभग 200% प्रदर्शन सुधार हासिल किया, जिससे मानव और बड़े मॉडल एजेंट के GUI संचालन में सफलता दर के बीच के अंतर को कम किया गया।
प्रोजेक्ट लिंक:https://xiao9905.github.io/AutoGLM