Hugging Face ने एक उल्लेखनीय AI मॉडल - SmolVLM पेश किया है। यह दृश्य भाषा मॉडल इतना छोटा है कि इसे मोबाइल फोन जैसे छोटे उपकरणों पर चलाया जा सकता है, और इसकी प्रदर्शन उन पूर्ववर्ती मॉडलों से बेहतर है जिन्हें बड़े डेटा केंद्रों के समर्थन की आवश्यकता होती है।
SmolVLM-256M मॉडल की GPU मेमोरी की आवश्यकता 1GB से कम है, जबकि इसकी प्रदर्शन पिछले Idefics80B मॉडल से बेहतर है, जिसका आकार 300 गुना बड़ा है, जो व्यावहारिक AI तैनाती में एक महत्वपूर्ण प्रगति को दर्शाता है।
Hugging Face के मशीन लर्निंग शोध इंजीनियर एंड्रेस माराल्फिओटी के अनुसार, SmolVLM मॉडल के बाजार में आने के साथ, यह कंपनियों को महत्वपूर्ण कंप्यूटिंग लागत में कमी भी लाता है। "हमारा पहले जारी किया गया Idefics80B अगस्त 2023 में पहला ओपन-सोर्स वीडियो भाषा मॉडल था, जबकि SmolVLM की पेशकश ने आकार में 300 गुना कमी के साथ प्रदर्शन में सुधार किया है।" माराल्फिओटी ने "उद्यमिता दैनिक" को दिए एक साक्षात्कार में कहा।
SmolVLM मॉडल का लॉन्च उस समय हुआ है जब कंपनियों को AI सिस्टम कार्यान्वयन में उच्च कंप्यूटिंग लागत का सामना करना पड़ रहा है। नए मॉडल में 256M और 500M दो प्रकार के पैरामीटर आकार शामिल हैं, जो पहले कल्पना से परे गति से छवियों को संसाधित और दृश्य सामग्री को समझने में सक्षम हैं। सबसे छोटे संस्करण की प्रसंस्करण गति प्रति सेकंड 16 उदाहरणों तक पहुंच सकती है, केवल 15GB मेमोरी की आवश्यकता होती है, जो उन कंपनियों के लिए विशेष रूप से उपयुक्त है जिन्हें बड़ी मात्रा में दृश्य डेटा संसाधित करने की आवश्यकता होती है। प्रति माह 10 लाख छवियों को संसाधित करने वाली मध्यम आकार की कंपनियों के लिए, इसका मतलब वार्षिक कंप्यूटिंग लागत में महत्वपूर्ण बचत है।
इसके अलावा, IBM ने Hugging Face के साथ साझेदारी की है, जिसने 256M मॉडल को अपने दस्तावेज़ प्रसंस्करण सॉफ़्टवेयर Docling में एकीकृत किया है। हालाँकि IBM के पास समृद्ध कंप्यूटिंग संसाधन हैं, लेकिन छोटे मॉडल का उपयोग उन्हें लाखों दस्तावेज़ों को अधिक कुशलता से और कम लागत में संसाधित करने की अनुमति देता है।
Hugging Face टीम ने दृश्य प्रसंस्करण और भाषा घटकों में तकनीकी नवाचारों के माध्यम से मॉडल के आकार को बिना प्रदर्शन खोए सफलतापूर्वक कम किया है। उन्होंने मूल 400M पैरामीटर दृश्य एन्कोडर को 93M पैरामीटर संस्करण से बदल दिया और अधिक आक्रामक टोकन संकुचन तकनीक लागू की। ये नवाचार छोटे व्यवसायों और स्टार्टअप्स को संक्षिप्त समय में जटिल कंप्यूटर दृश्य उत्पादों को लॉन्च करने में सक्षम बनाते हैं, जिससे बुनियादी ढांचे की लागत में भी भारी कमी आती है।
SmolVLM का प्रशिक्षण डेटा सेट 1.7 करोड़ प्रशिक्षण उदाहरणों में शामिल है, जिसमें से लगभग आधा दस्तावेज़ प्रसंस्करण और छवि लेबलिंग के लिए उपयोग किया गया है। ये विकास न केवल लागत को कम करते हैं, बल्कि कंपनियों के लिए नए अनुप्रयोग संभावनाओं को भी लाते हैं, जिससे कंपनियों की दृश्य खोज में क्षमताएँ अभूतपूर्व स्तर तक बढ़ जाती हैं।
Hugging Face की यह प्रगति मॉडल के आकार और क्षमता के बीच संबंध की पारंपरिक धारणाओं को चुनौती देती है। SmolVLM साबित करता है कि छोटे और कुशल ढांचे भी उत्कृष्ट प्रदर्शन हासिल कर सकते हैं, भविष्य में AI का विकास शायद बड़े मॉडलों का पीछा करने के बजाय अधिक लचीले और कुशल सिस्टम की खोज में होगा।
मॉडल: https://huggingface.co/blog/smolervlm
मुख्य बिंदु:
🌟 Hugging Face द्वारा पेश किया गया SmolVLM मॉडल मोबाइल पर चल सकता है, और 300 गुना बड़े Idefics80B मॉडल से बेहतर प्रदर्शन करता है।
💰 SmolVLM मॉडल कंपनियों को कंप्यूटिंग लागत में महत्वपूर्ण कमी लाने में मदद करता है, और इसकी प्रसंस्करण गति प्रति सेकंड 16 उदाहरणों तक पहुंचती है।
🚀 इस मॉडल की तकनीकी नवाचार छोटे व्यवसायों और स्टार्टअप्स को संक्षिप्त समय में जटिल कंप्यूटर दृश्य उत्पादों को लॉन्च करने में सक्षम बनाते हैं।