चीन की आर्टिफिशियल इंटेलिजेंस कंपनी DeepSeek ने हाल ही में एक मील का पत्थर साबित होने वाला ओपन-सोर्स बड़ा भाषा मॉडल DeepSeek V3 लॉन्च किया है। इस मॉडल में 6710 अरब पैरामीटर हैं, जो न केवल Meta के Llama3.1 को पार करता है, बल्कि कई बेंचमार्क परीक्षणों में GPT-4 सहित प्रमुख बंद-स्रोत मॉडलों को भी पीछे छोड़ता है।

DeepSeek V3 की प्रमुख विशेषताएँ इसकी मजबूत प्रदर्शन और कुशल विकास प्रक्रिया में निहित हैं। इस मॉडल ने प्रोग्रामिंग प्लेटफॉर्म Codeforces की प्रतियोगिताओं में उत्कृष्ट प्रदर्शन किया है और Aider Polyglot परीक्षण में प्रतिस्पर्धियों से आगे रहा है, जो कोड इंटीग्रेशन क्षमताओं का परीक्षण करता है। मॉडल का प्रशिक्षण 14.8 ट्रिलियन टोकन के विशाल डेटासेट पर किया गया है, जिसका पैरामीटर आकार Llama3.1 के 1.6 गुना है।

AI रोबोट आर्टिफिशियल इंटेलिजेंस (2)

अधिक ध्यान देने योग्य बात यह है कि DeepSeek ने केवल दो महीने और 550 लाख डॉलर की लागत में मॉडल प्रशिक्षण पूरा किया, जो समान उत्पादों के विकास निवेश से काफी कम है।

DeepSeek के पीछे चीन के क्वांटिटेटिव हेज फंड High-Flyer Capital Management का समर्थन है। इस फंड ने 10,000 Nvidia A100 GPU के साथ लगभग 1.38 अरब डॉलर की मूल्यवान सर्वर क्लस्टर का निर्माण किया है। High-Flyer के संस्थापक लियांग वेनफेंग ने कहा कि ओपन-सोर्स AI अंततः वर्तमान बंद मॉडल के एकाधिकार लाभ को तोड़ देगा।

DeepSeek V3 को एक उदार लाइसेंस के तहत जारी किया गया है, जो डेवलपर्स को इसे डाउनलोड, संशोधित करने और व्यावसायिक उपयोग सहित विभिन्न अनुप्रयोगों के लिए उपयोग करने की अनुमति देता है। हालांकि पूर्ण संस्करण को चलाने के लिए अभी भी शक्तिशाली हार्डवेयर समर्थन की आवश्यकता है, लेकिन इस ओपन-सोर्स मॉडल का प्रकाशन AI क्षेत्र में खुले नवाचार की दिशा में एक महत्वपूर्ण कदम का प्रतीक है।