हाल ही में, जापान के टोक्यो में स्थित स्टार्टअप Rhymes AI ने अपने पहले आर्टिफिशियल इंटेलिजेंस मॉडल - Aria - को लॉन्च किया है। कंपनी का दावा है कि Aria दुनिया का पहला ओपन-सोर्स मल्टी-मोडल मिक्स्ड एक्सपर्ट (MoE) मॉडल है। यह मॉडल न केवल विभिन्न इनपुट मोड का प्रबंधन करने की क्षमता रखता है, बल्कि यह कुछ प्रसिद्ध व्यावसायिक मॉडलों के मुकाबले प्रदर्शन में भी उत्कृष्ट है।
Aria का डिज़ाइन विचार यह है कि यह टेक्स्ट, कोड, इमेज और वीडियो जैसे विभिन्न इनपुट फॉर्मेट्स पर उत्कृष्ट समझ और प्रबंधन क्षमता प्रदान कर सके। पारंपरिक ट्रांसफार्मर मॉडलों के विपरीत, MoE मॉडल अपने फीडफॉरवर्ड लेयर के लिए कई विशेषज्ञों का उपयोग करता है। जब प्रत्येक इनपुट टोकन को संसाधित किया जाता है, तो एक राउटिंग मॉड्यूल कुछ विशेषज्ञों को सक्रिय करने के लिए चुनता है, जिससे गणना की दक्षता बढ़ती है और प्रत्येक टोकन के लिए सक्रियण पैरामीटर की संख्या कम होती है।
Aria का डिकोडर प्रत्येक टेक्स्ट टोकन के लिए 3.5 बिलियन पैरामीटर सक्रिय कर सकता है, और पूरे मॉडल में 24.9 बिलियन पैरामीटर हैं। दृश्य इनपुट को संसाधित करने के लिए, Aria ने एक हल्का दृश्य एन्कोडर डिज़ाइन किया है, जिसमें 438 मिलियन पैरामीटर हैं, जो विभिन्न लंबाई, आकार और अनुपात के दृश्य इनपुट को दृश्य टोकन में परिवर्तित कर सकता है। इसके अलावा, Aria का मल्टी-मोडल संदर्भ विंडो 64,000 टोकन तक पहुँचती है, जिसका अर्थ है कि यह लंबे इनपुट डेटा को संभाल सकता है।
प्रशिक्षण के मामले में, Rhymes AI ने चार चरणों में प्रक्रिया को विभाजित किया है, पहले टेक्स्ट डेटा का प्री-ट्रेनिंग, फिर मल्टी-मोडल डेटा का परिचय, उसके बाद लंबे अनुक्रम का प्रशिक्षण, और अंत में फाइन-ट्यूनिंग।
इस प्रक्रिया में, Aria ने कुल 64 ट्रिलियन टेक्स्ट टोकन और 400 बिलियन मल्टी-मोडल टोकन का प्री-ट्रेनिंग किया, डेटा प्रसिद्ध डेटा सेट जैसे Common Crawl और LAION से प्राप्त किया गया था, और कुछ संश्लेषण संवर्धन भी किया गया था।
संबंधित बेंचमार्क परीक्षणों के अनुसार, Aria ने कई मल्टी-मोडल, भाषा और प्रोग्रामिंग कार्यों में Pixtral-12B और Llama-3.2-11B जैसे मॉडलों की तुलना में बेहतर प्रदर्शन किया है, और कम सक्रियण पैरामीटर के कारण, इसका अनुमान लागत भी कम है।
इसके अलावा, Aria ने उपशीर्षक वाले वीडियो या बहु-पृष्ठ दस्तावेज़ों को संसाधित करते समय अच्छा प्रदर्शन किया है, इसकी लंबे वीडियो और दस्तावेज़ों को समझने की क्षमता GPT-4o mini और Gemini1.5Flash जैसे अन्य ओपन-सोर्स मॉडलों से बेहतर है।
उपयोग में आसानी के लिए, Rhymes AI ने Aria का सोर्स कोड Apache 2.0 लाइसेंस के तहत GitHub पर प्रकाशित किया है, जो शैक्षणिक और व्यावसायिक उपयोग का समर्थन करता है। साथ ही, उन्होंने एक प्रशिक्षण ढांचा भी प्रदान किया है, जो एकल GPU पर Aria के लिए विभिन्न डेटा स्रोतों और प्रारूपों का फाइन-ट्यूनिंग कर सकता है। उल्लेखनीय है कि Rhymes AI ने AMD के साथ सहयोग किया है, मॉडल प्रदर्शन को अनुकूलित करने के लिए, और BeaGo नामक एक खोज एप्लिकेशन प्रदर्शित किया है, जो AMD हार्डवेयर पर चल सकता है, उपयोगकर्ताओं को अधिक व्यापक टेक्स्ट और इमेज AI खोज परिणाम प्रदान करता है।
मुख्य बातें:
🌟 Aria दुनिया का पहला ओपन-सोर्स मल्टी-मोडल मिक्स्ड एक्सपर्ट AI मॉडल है।
💡 Aria टेक्स्ट, इमेज और वीडियो जैसे विभिन्न इनपुट को संभालने में उत्कृष्ट प्रदर्शन करता है, जो कई समकक्ष मॉडलों को पार करता है।
🤝 Rhymes AI ने AMD के साथ सहयोग किया है, मॉडल प्रदर्शन को अनुकूलित करने और कई कार्यों का समर्थन करने वाले BeaGo खोज एप्लिकेशन को लॉन्च करने के लिए।