हाल ही में, माइक्रोसॉफ्ट द्वारा पेश किया गया नवीनतम विजुअल बेस मॉडल फ्लोरेंस-2 ने एक महत्वपूर्ण सफलता प्राप्त की है। ट्रांसफार्मर्स.js तकनीक की मदद से, यह मॉडल अब वेबGPU का समर्थन करने वाले ब्राउज़रों में 100% स्थानीय रूप से चलने में सक्षम है। यह सफलता AI विजुअल एप्लिकेशनों में क्रांतिकारी परिवर्तन लाती है, जिससे शक्तिशाली विजुअल पहचान क्षमताएं सीधे उपयोगकर्ता के ब्राउज़र में कार्यान्वित की जा सकती हैं, बिना किसी दूरस्थ सर्वर पर निर्भर किए।
फ्लोरेंस-2-बेस-एफटी एक विजुअल बेस मॉडल है जिसमें 2.3 करोड़ पैरामीटर हैं, जो विभिन्न विजुअल और विजुअल भाषा कार्यों को संभालने के लिए संकेत-आधारित दृष्टिकोण का उपयोग करता है। यह मॉडल कई कार्यों का समर्थन करता है, जिनमें शामिल हैं लेकिन इन तक सीमित नहीं हैं:
- छवि विवरण उत्पन्न करना
- ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR)
- वस्तु पहचान
- छवि विभाजन
यह शक्तिशाली मॉडल केवल 340MB स्टोरेज स्पेस लेता है, और एक बार लोड होने के बाद, इसे ब्राउज़र में कैश कर दिया जाता है, ताकि उपयोगकर्ता जब फिर से पृष्ठ पर जाएं, तो इसे सीधे कॉल किया जा सके, बिना पुनः डाउनलोड किए। सबसे आश्चर्यजनक बात यह है कि यह पूरा प्रक्रिया पूरी तरह से उपयोगकर्ता के ब्राउज़र में स्थानीय रूप से होती है, किसी भी सर्वर को कोई API कॉल भेजने की आवश्यकता नहीं होती। इसका मतलब है कि मॉडल लोड होने के बाद, इंटरनेट कनेक्शन टूटने पर भी, उपयोगकर्ता सभी सुविधाओं का उपयोग कर सकते हैं।
फ्लोरेंस-2 का स्थानीय संचालन 🤗 ट्रांसफार्मर्स.js और ONNX रनटाइम वेब तकनीक के समर्थन के कारण संभव हुआ है। यह सफलता न केवल उपयोगकर्ता की गोपनीयता की सुरक्षा को बढ़ाती है, बल्कि उपयोग की लागत को भी काफी कम करती है, जिससे AI विजुअल तकनीक के व्यापक उपयोग के लिए रास्ता प्रशस्त होता है।
डेवलपर्स और तकनीकी उत्साही लोगों के लिए, फ्लोरेंस-2 का ONNX मॉडल हगिंग फेस प्लेटफॉर्म पर खुला उपलब्ध है। रुचि रखने वाले लोग अधिक जानकारी के लिए https://huggingface.co/models?library=transformers.js&other=florence2 पर जा सकते हैं। इसके अलावा, परियोजना का स्रोत कोड भी GitHub पर सार्वजनिक किया गया है, जिससे डेवलपर्स इसे https://github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpu के माध्यम से प्राप्त कर सकते हैं और आगे अन्वेषण और विकास कर सकते हैं।
फ्लोरेंस-2 की यह सफलता निश्चित रूप से AI विजुअल एप्लिकेशनों के तेजी से विकास और व्यापक प्रसार को बढ़ावा देगी। हम निकट भविष्य में और अधिक ब्राउज़र आधारित स्मार्ट विजुअल एप्लिकेशनों की उम्मीद कर सकते हैं जो हमारे दैनिक जीवन और कार्य करने के तरीकों को बदल देंगी।