चौदह वर्षों से उद्योग में गहन रूप से कार्यरत, हम जानते हैं कि लहर आ रही है, और हमें इसके साथ आगे बढ़ना चाहिए। यह लेख कंपनी के विचारों के संयोजन में, AI के नए युग में प्रौद्योगिकी और अनुप्रयोग प्रवृत्तियों पर चर्चा करने, आंतरिक रूप से मूल सिद्धांतों का पालन करने और बाहरी रूप से नए विचारों को अपनाने और पूर्णता प्राप्त करने का प्रयास करता है।
तकनीकी वाटरशेड: कंप्यूटिंग पावर, एल्गोरिदम और डेटा दक्षता का खेल
बड़े मॉडल के तेजी से विकास के साथ, मानव कृत्रिम सुपर इंटेलिजेंस (ASI) के रास्ते पर आगे बढ़ चुका है। बिग डेटा तकनीक की परिपक्वता ने AI को बड़ी मात्रा में उत्पादन कारक प्रदान किए हैं, GPU तकनीक के विकास ने AI की उत्पादकता को मुक्त कर दिया है, और एल्गोरिदम में क्रांति ने AI को कंप्यूटिंग पावर और डेटा की बाधाओं को तोड़ने में मदद की है। DeepSeek, GPT o1, Grok जैसे बड़े भाषा मॉडल के मॉडल एल्गोरिदम, प्रशिक्षण मापदंडों और कंप्यूटिंग पावर के संचय में निरंतर सुधार के साथ, हम AI तकनीकी विकास के चौराहे पर पहुँच गए हैं: कंप्यूटिंग पावर, एल्गोरिदम और डेटा दक्षता का एक खेल।
यदि हम मूर के नियम का संदर्भ लें, तो कंप्यूटिंग पावर का विकास सबसे पहले ऊर्जा दक्षता की सीमा तक पहुँचेगा, मूल बड़े मॉडल कंप्यूटिंग पावर के संचय पर निर्भर करने का युग समाप्त हो जाएगा। यह "कंप्यूटिंग पावर अप्रभावी सिद्धांत" नहीं है, अधिक पैरामीटर और कंप्यूटिंग पावर का मतलब निश्चित रूप से बेहतर मॉडल प्रभाव है, लेकिन घटते सीमांत प्रभाव के कारण तकनीकी विकास में कंप्यूटिंग पावर में निवेश स्थिर हो जाएगा। यह वर्तमान AI दिग्गजों के उत्पाद विकास पथ से स्पष्ट है: xAI Grok के लॉन्च के साथ, कंप्यूटिंग पावर के संचय से होने वाले सुधारों में थकान दिखाई देने लगी है, और OpenAI जैसे अन्य AI दिग्गज AI एजेंट जैसे अनुप्रयोग क्षेत्रों की खोज शुरू कर चुके हैं, और बुद्धिमान एजेंट उत्पाद लॉन्च कर रहे हैं।
सिंथेटिक डेटा और निजी डेटा अगले बड़े मॉडल युग के लिए डेटा का प्रवेश द्वार हैं। हालाँकि हम डेटा के बड़े पैमाने पर विस्फोट के सूचना युग में हैं, लेकिन बिग डेटा तकनीक और एल्गोरिदम में सफलता के कारण डेटा प्रसंस्करण दक्षता में वृद्धि हुई है, AI विकास डेटा की कमी का सामना कर रहा है। ChatGPT के लॉन्च के समय, सैम ऑल्टमैन ने चेतावनी दी थी कि "हम वर्तमान बड़े मॉडल युग के अंत में हैं"। इंटरनेट के इतिहास में संरक्षित विभिन्न उच्च-गुणवत्ता वाली सामग्री GPT-3/4 में लगभग समाप्त हो गई है। बड़े मॉडल पैरामीटर की संख्या अभी भी बढ़ सकती है, लेकिन इसी मात्रा में उच्च-गुणवत्ता वाले डेटा की कमी होती जा रही है, इसलिए पैरामीटर की संख्या में वृद्धि से होने वाले सीमांत लाभ धीरे-धीरे कम होते जाएँगे।
एल्गोरिदम AI विकास के लिए "उत्प्रेरक" की तरह अधिक हैं, यह कंप्यूटिंग पावर और डेटा की बाधाओं को तोड़ सकता है और गैर-रैखिक विकास प्राप्त कर सकता है। एल्गोरिदम क्षेत्र में सफलता का मतलब अक्सर LLM में सफलता होती है, जैसे कि ट्रांसफॉर्मर के तहत ChatGPT, MoE के तहत DeepSeek। हालाँकि, मॉडल की जटिलता में वृद्धि के साथ, एल्गोरिदम में सुधार की गुंजाइश धीरे-धीरे कम होती जा रही है। आम तौर पर यह माना जाता है कि एल्गोरिदम में सफलता के लिए अधिक अंतःविषय अनुसंधान परिणामों के संयोजन की आवश्यकता हो सकती है, जैसे कि तंत्रिका विज्ञान से प्रेरित गहन शिक्षा, संज्ञानात्मक विज्ञान से प्रेरित ध्यान तंत्र, लेकिन भविष्य में कितने "ट्रांसफॉर्मर क्षण" होंगे, यह अनुमान लगाना मुश्किल है।
टोंगफू डुन घोषणा: कंप्यूटिंग पावर, एल्गोरिदम और डेटा दक्षता के खेल में मूल बड़े मॉडल का विकास स्थिर हो रहा है, जो ASI के लिए एक ठोस बुनियादी ढाँचा बन गया है; तकनीकी संसाधन धीरे-धीरे विशेष क्षेत्रों में डेटा मूल्य निष्कर्षण और AI बुद्धिमान एजेंटों के दृश्य कार्यान्वयन की ओर बढ़ रहे हैं; "अनुप्रयोग कार्यान्वयन" अगले AI युग के विकास की मुख्य धुन बन जाएगा।
अनुप्रयोगों का बड़ा विस्फोट: बहु-बुद्धिमान एजेंट सहयोग एजेंट युग का मार्ग प्रशस्त करता है
AI एजेंट का विकास "प्रश्नोत्तर रोबोट" से "बुद्धिमान सहायक" के विकास तक है। एजेंट का मूल "कार्य निष्पादन" है, जिससे AI केवल सुझाव देने तक सीमित नहीं है, बल्कि विशिष्ट कार्य कर सकता है, जैसे ऑनलाइन ऑर्डर करना या लेनदेन करना। सरल कार्यों से जटिल कार्यों के विकास के लिए अक्सर विभिन्न मॉडलों और विभिन्न बुद्धिमान एजेंटों के बीच समन्वय की आवश्यकता होती है। हम इस "बहु-बुद्धिमान एजेंट समन्वय" की अवधारणा को InterAgent (IA) के रूप में परिभाषित करते हैं, जो तकनीकी वास्तुकला में एक क्रांति है, साथ ही औद्योगिक अनुप्रयोग प्रतिमान का पुनर्गठन भी है। हमारा मानना है कि IA AI को एकल बुद्धि से सामूहिक सहयोग तक, उपकरण सहायता से स्वायत्त निष्पादन तक एक छलांग लगाने में मदद करेगा, जो एजेंट युग के व्यापक विस्फोट को चलाने वाली मुख्य प्रेरक शक्ति बन जाएगा।
तकनीकी स्तर पर, एंथ्रोपिक के MCP प्रोटोकॉल विभिन्न डेटा स्रोतों, मॉडलों और उपकरणों को जोड़ने की अनुमति देता है, जो बहु-बुद्धिमान एजेंट समन्वय (IA) के लिए एक मानकीकृत प्रोटोकॉल प्रदान करता है। MCP (मॉडल संदर्भ प्रोटोकॉल) अनुप्रयोगों और मॉडलों के बीच संदर्भ जानकारी के आदान-प्रदान के तरीके को परिभाषित करता है, जिससे एजेंट विकास अधिक सुविधाजनक और सरल हो जाता है, और बहु-एजेंट समन्वय अधिक सुसंगत और कुशल हो जाता है। MCP प्रोटोकॉल पारिस्थितिकी तंत्र अभी भी प्रारंभिक चरण में है, और टोंगफू डुन, एक AI एजेंट ट्रस्ट सिस्टम सेवा प्रदाता के रूप में, सक्रिय रूप से इसके पारिस्थितिकी तंत्र के निर्माण में भाग ले रहा है, MCP सर्वर तैनात कर रहा है, समुदाय के लिए MCP फ़ंक्शन प्लगइन्स विकसित कर रहा है, और बहु-बुद्धिमान एजेंट समन्वय पारिस्थितिकी तंत्र के विस्तार में योगदान कर रहा है।
चित्र 1 टोंगफू डुन MCP AI प्लगइन सेवा
अनुप्रयोग स्तर पर, Dify, elizaOS जैसे एजेंट ढाँचे के परिपक्व होने के साथ, AI एजेंट "बुद्धिमान सहायक" की भूमिका में अधिक से अधिक पूर्ण कार्य कर रहे हैं। Manus के उद्भव ने "सामान्य बुद्धिमान एजेंट" पर चर्चा की लहर शुरू कर दी है। एक ओर, एक सामान्य AI सहायक के रूप में, Manus द्वारा प्रदर्शित उदाहरणों ने बड़े मॉडल की तार्किक तर्क क्षमता को वास्तविक उत्पादकता में बदलने की क्षमता दिखाई है, जिसकी व्यावसायिक क्षमता बहुत बड़ी है; दूसरी ओर, यह देखते हुए कि इसने कोई सार्वजनिक परीक्षण चैनल नहीं खोला है, Manus की तकनीकी नवाचार की वास्तविकता, विपणन रणनीति और वास्तविक मूल्य निर्माण क्षमता पर भी बहस हो रही है, खासकर इसके प्रमुख "सामान्य एजेंट" की अवधारणा, वर्तमान AI तकनीकी विकास प्रवृत्ति के तहत, अभी भी काफी सीमाएँ हैं।
Manus की सामान्य भव्य कहानी के विपरीत, Dify जैसे एजेंट अनुप्रयोग प्लेटफ़ॉर्म पहले ही कई क्षेत्रों में व्यावहारिक अनुप्रयोगों में लागू हो चुके हैं, जो समुदाय के संयुक्त निर्माण के कारण है। एक सामान्य बड़े मॉडल की तुलना में, विशिष्ट अनुप्रयोग परिदृश्यों के लिए विशेष कार्यप्रवाह अधिक जीवंत हैं, यह जीवंतता व्यापार के सार से आती है - मूल्य निर्माण। एक कंपनी की कल्पना करें जो ग्राहकों तक पहुँचने और बिक्री करने के लिए एक AI एजेंट बनाती है, लाभ को अधिकतम करने के लिए, यह एजेंट को प्रशिक्षित करने के लिए उच्चतम गुणवत्ता वाले डेटा और सर्वोत्तम विशेषज्ञ अनुभव का उपयोग करेगा, निजी डेटा और उद्योग के ज्ञान से उत्पन्न सूचना बाधाएं इसकी प्रभावशीलता को सामान्य एजेंट मॉडल से कहीं बेहतर बना देंगी। फिर एक AI एजेंट बाजार की कल्पना करें, जिसमें विभिन्न क्षेत्रों के उत्कृष्ट एजेंट एकत्रित होते हैं (क्योंकि बाजार एजेंट निर्माताओं के लिए पर्याप्त प्रोत्साहन प्रदान करता है), एजेंट बाजार में प्रतिस्पर्धा करते हैं, और केवल मूल्य निर्माण क्षमता वाले एजेंट ही जीवित रह सकते हैं। उत्कृष्ट एजेंट अधिक उपयोगकर्ताओं को आकर्षित कर सकते हैं, और अधिक उपयोगकर्ता अधिक डेटा प्रदान करेंगे, जिससे एजेंट की प्रगति को और बढ़ावा मिलेगा, जिससे एक सकारात्मक चक्र बनेगा।
चित्र 2 टोंगफू डुन ऑन-चेन AI प्लगइन प्लेटफ़ॉर्म (बाएँ), AI एजेंट प्लगइन मार्केट (दाएँ)
टोंगफू डुन घोषणा: AI अनुप्रयोग युग बुद्धिमान एजेंट (एजेंट) को अनुप्रयोग कोर के रूप में और बहु-बुद्धिमान एजेंट समन्वय (InterAgent, या IA) को तकनीकी कोर के रूप में लेता है; बुद्धिमान एजेंटों के लिए बुनियादी ढाँचे के निर्माण से बड़ी व्यावसायिक वापसी होगी, और इसके कीवर्ड "ऊर्ध्वाधर क्षेत्र", "समुदाय प्रोत्साहन" और "खुला प्लेटफ़ॉर्म" हैं।
मॉडल का भविष्य: छोटे मॉडल नए युग के "ट्यूरिंग टेस्ट" का नेतृत्व करते हैं
डीपमाइंड के सह-संस्थापक सुलेमान ने अपनी पुस्तक "द वेव इज कमिंग" में एक नए युग के AI "ट्यूरिंग टेस्ट" का प्रस्ताव रखा: एक AI को $100,000 दें और देखें कि क्या यह अमेज़ॅन पर सीखकर व्यापार कर सकता है और अंततः $1 मिलियन कमा सकता है। यह एक बहुत ही दिलचस्प अवधारणा है, तकनीकी आधार रेखा के विपरीत, उपयोगकर्ताओं के लिए AI एजेंट की कार्रवाई क्षमता, यानी मूल्य निर्माण क्षमता अधिक महत्वपूर्ण है। व्यावसायिक सफलता नए युग का "ट्यूरिंग टेस्ट" है, और यह परीक्षण विशेष रूप से एजेंट के लिए डिज़ाइन किया गया है। तकनीकी विकास अक्सर व्यावसायिक मॉडल द्वारा संचालित होता है, और हमारा मानना है कि भविष्य में मॉडल तकनीक का विकास मूल बड़े मॉडल से विशेष क्षेत्रों में बेहतर प्रदर्शन और अधिक लाभप्रदता वाले विशेषज्ञ क्षेत्र के छोटे मॉडल में बदल जाएगा।
तकनीकी दृष्टिकोण से, छोटे मॉडल का तकनीकी ढाँचा परिपक्व हो चुका है। सामान्य धारणा के विपरीत, छोटे मॉडल की उत्पत्ति वास्तव में बड़े भाषा मॉडल से बहुत पहले है, जिसकी उत्पत्ति 20 वीं शताब्दी के 60 के दशक के विशेषज्ञ प्रणालियों से हुई है, जिसका मूल विचार मानव विशेषज्ञों की निर्णय लेने की क्षमता की नकल करने के लिए ज्ञान आधार और तर्क तंत्र का उपयोग करना है। 2010 के आसपास MoE ढाँचा (जिसने DeepSeek के एल्गोरिथम नवाचार को भी सीधे प्रेरित किया) विशेषज्ञ मॉडल का मूल ढाँचा भी है, जो इनपुट को विभिन्न उप-मॉडलों (विशेषज्ञों) में गतिशील रूप से रूट करके, प्रदर्शन सुनिश्चित करते हुए गणना की मात्रा को कम करता है, और छोटे मॉडल के मॉड्यूलर डिज़ाइन के लिए नींव रखता है। बड़े मॉडल की परिपक्वता ने छोटे मॉडल की गुणवत्ता में सुधार के लिए भी शर्तें प्रदान की हैं, ज्ञान आसवन, मॉडल छंटाई जैसी तकनीकों के माध्यम से, छोटे मॉडल प्रदर्शन को बनाए रखते हुए पैमाने को काफी कम कर सकते हैं।
व्यावसायिक मॉडल के संदर्भ में, छोटे मॉडल के लिए व्यावसायिक मिट्टी पहले ही तैयार हो चुकी है। छोटे मॉडल में उत्कृष्ट दक्षता अनुपात है, और परिनियोजन अनुमान लागत बड़े मॉडल का केवल कुछ अंश है, लेकिन विशेषज्ञ ज्ञान आधार के साथ संयोजन में, यह बड़े मॉडल की तुलना में बहुत बेहतर प्रदर्शन प्राप्त कर सकता है। डेटा आइसोलेट्स डेटा को उच्च व्यावसायिक मूल्य और प्रतिस्पर्धी बाधा प्रदान करते हैं, और जैसे-जैसे छोटे मॉडल के व्यावसायिक अनुप्रयोग परिपक्व होते हैं, उच्च-मूल्य वाले डेटा वास्तविक डेटा तत्व बन सकते हैं, जो कंपनियों के विकास के लिए नए व्यावसायिक मॉडल और लाभकारी स्थान प्रदान करते हैं।
यह उल्लेखनीय है कि वितरित डिजिटल पहचान और छोटे मॉडल तकनीक का संयोजन डिजिटल स्थान में उच्च-मूल्य वाले व्यावसायिक मॉडल बना सकता है। छोटे मॉडल के माध्यम से, विभिन्न क्षेत्रों में निजी डेटा व्यावसायिक मूल्य को अधिकतम कर सकता है, और मॉडल की डिजिटल पहचान डेटा तत्व अधिकारों के लिए महत्वपूर्ण हो जाती है। वर्तमान में वितरित डिजिटल पहचान तकनीक अपेक्षाकृत परिपक्व है, प्रत्येक छोटे मॉडल, प्रत्येक AI एजेंट को डिजिटल स्थान में एक विश्वसनीय पहचान या खाता प्रणाली कैसे प्रदान की जाए