Hugging Face ने आज SmolLM2 जारी किया, जो एक नई संकुचित भाषा मॉडल का समूह है, जिसने प्रभावशाली प्रदर्शन हासिल किया है, जबकि इसकी आवश्यक गणना संसाधन बड़े मॉडलों की तुलना में बहुत कम हैं। नए मॉडल को Apache2.0 लाइसेंस के तहत जारी किया गया है, जिसमें तीन आकार हैं - 135M, 360M और 1.7B पैरामीटर - जो स्मार्टफोन और अन्य सीमित प्रोसेसिंग क्षमता और मेमोरी वाले एज डिवाइस पर तैनाती के लिए उपयुक्त हैं।
SmolLM2-1B मॉडल कई प्रमुख बेंचमार्क परीक्षणों में Meta के Llama1B मॉडल से बेहतर प्रदर्शन करता है, विशेष रूप से वैज्ञानिक तर्क और सामान्य ज्ञान कार्यों में उत्कृष्टता दिखाई देती है। यह मॉडल अधिकांश संज्ञानात्मक बेंचमार्क पर बड़े प्रतिस्पर्धी मॉडलों से बेहतर प्रदर्शन करता है, जिसमें FineWeb-Edu और विशेष गणित और कोडिंग डेटा सेट सहित विविध डेटा सेटों का संयोजन शामिल है।
SmolLM2 का लॉन्च कृत्रिम बुद्धिमत्ता उद्योग के लिए महत्वपूर्ण समय पर हो रहा है, जब बड़े भाषा मॉडलों (LLM) के संचालन की गणना आवश्यकताओं का सामना करना पड़ रहा है। जबकि OpenAI और Anthropic जैसी कंपनियां मॉडल के आकार की सीमाओं को लगातार तोड़ रही हैं, यह तेजी से समझा जा रहा है कि ऐसे कुशल, हल्के कृत्रिम बुद्धिमत्ता की आवश्यकता है जो उपकरणों पर स्थानीय रूप से चल सके।
SmolLM2 एक अलग दृष्टिकोण प्रदान करता है, जो शक्तिशाली AI क्षमताओं को सीधे व्यक्तिगत उपकरणों में लाता है, यह भविष्य की ओर इशारा करता है जहां अधिक उपयोगकर्ता और कंपनियाँ उन्नत AI उपकरणों का उपयोग कर सकती हैं, न कि केवल बड़े डेटा केंद्रों के स्वामित्व वाले तकनीकी दिग्गज। ये मॉडल टेक्स्ट पुनर्लेखन, सारांश और फ़ंक्शन कॉलिंग सहित विभिन्न अनुप्रयोगों का समर्थन करते हैं, जो ऐसे परिदृश्यों में तैनाती के लिए उपयुक्त हैं जहाँ गोपनीयता, विलंबता या कनेक्शन सीमाएँ क्लाउड-आधारित AI समाधानों को अव्यावहारिक बनाती हैं।
हालांकि ये छोटे मॉडल अभी भी सीमाओं का सामना करते हैं, लेकिन वे अधिक कुशल कृत्रिम बुद्धिमत्ता मॉडलों के व्यापक प्रवृत्ति का एक हिस्सा हैं। SmolLM2 का लॉन्च यह दर्शाता है कि कृत्रिम बुद्धिमत्ता का भविष्य केवल बड़े मॉडलों का नहीं हो सकता, बल्कि अधिक कुशल आर्किटेक्चर का हो सकता है जो कम संसाधनों के साथ शक्तिशाली प्रदर्शन प्रदान करते हैं।