हाल ही में, Tencent Youtu Laboratory और अन्य संस्थाओं के शोधकर्ताओं ने पहला ओपन-सोर्स मल्टी-मोडल बड़े भाषा मॉडल VITA पेश किया है, जो वीडियो, चित्र, पाठ और ऑडियो को एक साथ संसाधित कर सकता है। इसके अलावा, इसका इंटरैक्टिव अनुभव भी उत्कृष्ट है।
VITA मॉडल का जन्म इस उद्देश्य से हुआ है कि बड़े भाषा मॉडल द्वारा चीनी बोलियों को संभालने में कमी को पूरा किया जा सके। यह शक्तिशाली Mixtral8×7B मॉडल पर आधारित है, जिसने चीनी शब्दावली का विस्तार किया है और द्विभाषी निर्देशों के लिए माइक्रो-ट्यूनिंग की है, जिससे VITA न केवल अंग्रेजी में माहिर है, बल्कि चीनी में भी धाराप्रवाह है।
मुख्य विशेषताएँ:
मल्टी-मोडल समझ: VITA वीडियो, चित्र, पाठ और ऑडियो को संभाल सकता है, जो ओपन-सोर्स मॉडल में अभूतपूर्व है।
स्वाभाविक इंटरैक्शन: हर बार "हे, VITA" कहने की आवश्यकता नहीं है, यह आपकी बात करते समय तुरंत प्रतिक्रिया दे सकता है, यहां तक कि जब आप दूसरों से बात कर रहे हों, तब भी यह शिष्टता बनाए रखता है और बेवजह नहीं बोलता।
ओपन-सोर्स अग्रणी: VITA ओपन-सोर्स समुदाय के लिए मल्टी-मोडल समझ और इंटरैक्शन में एक महत्वपूर्ण कदम है, जो आगे के शोध के लिए आधार तैयार करता है।
VITA की जादू इसकी दोहरी मॉडल तैनाती से आती है। एक मॉडल उपयोगकर्ता के प्रश्नों का उत्तर देने के लिए जिम्मेदार है, जबकि दूसरा मॉडल पर्यावरण इनपुट की निरंतर निगरानी करता है, यह सुनिश्चित करता है कि हर इंटरैक्शन सटीक और समय पर हो।
VITA केवल बातचीत नहीं कर सकता, बल्कि जब आप व्यायाम कर रहे हों तो यह एक बातचीत के साथी के रूप में कार्य कर सकता है, यहां तक कि जब आप यात्रा कर रहे हों तो सुझाव भी दे सकता है। यह आपके द्वारा प्रदान की गई चित्रों या वीडियो सामग्री के आधार पर प्रश्नों का उत्तर देने की क्षमता भी रखता है, जो इसकी शक्तिशाली उपयोगिता को दर्शाता है।
हालांकि VITA ने पहले ही विशाल संभावनाएं दिखाई हैं, लेकिन भावनात्मक वॉयस सिंथेसिस और मल्टी-मोडल समर्थन जैसे क्षेत्रों में यह लगातार विकसित हो रहा है। शोधकर्ता अगले पीढ़ी के VITA को वीडियो और पाठ इनपुट से उच्च गुणवत्ता वाली ऑडियो उत्पन्न करने की योजना बना रहे हैं, यहां तक कि उच्च गुणवत्ता वाली ऑडियो और वीडियो को एक साथ उत्पन्न करने की संभावना की भी खोज कर रहे हैं।
VITA मॉडल का ओपन-सोर्स होना केवल तकनीकी जीत नहीं है, बल्कि स्मार्ट इंटरैक्शन के तरीके में एक गहरा सुधार है। जैसे-जैसे शोध आगे बढ़ता है, हमें विश्वास है कि VITA हमें और अधिक स्मार्ट, और अधिक मानवता आधारित इंटरैक्टिव अनुभव प्रदान करेगा।
पेपर का पता: https://arxiv.org/pdf/2408.05211