腾讯 ने पहला ओपन-सोर्स मल्टी-मोडल लैंग्वेज मॉडल VITA लॉन्च किया, जो उपयोगकर्ताओं के साथ बाधारहित संवाद कर सकता है

AIbase基地

द्वारा प्रकाशितAI समाचार · 5 मिनट पढ़ें · Aug 14, 2024

558

हाल ही में, Tencent Youtu Laboratory और अन्य संस्थाओं के शोधकर्ताओं ने पहला ओपन-सोर्स मल्टी-मोडल बड़े भाषा मॉडल VITA पेश किया है, जो वीडियो, चित्र, पाठ और ऑडियो को एक साथ संसाधित कर सकता है। इसके अलावा, इसका इंटरैक्टिव अनुभव भी उत्कृष्ट है।

VITA मॉडल का जन्म इस उद्देश्य से हुआ है कि बड़े भाषा मॉडल द्वारा चीनी बोलियों को संभालने में कमी को पूरा किया जा सके। यह शक्तिशाली Mixtral8×7B मॉडल पर आधारित है, जिसने चीनी शब्दावली का विस्तार किया है और द्विभाषी निर्देशों के लिए माइक्रो-ट्यूनिंग की है, जिससे VITA न केवल अंग्रेजी में माहिर है, बल्कि चीनी में भी धाराप्रवाह है।

मुख्य विशेषताएँ:

मल्टी-मोडल समझ: VITA वीडियो, चित्र, पाठ और ऑडियो को संभाल सकता है, जो ओपन-सोर्स मॉडल में अभूतपूर्व है।

स्वाभाविक इंटरैक्शन: हर बार "हे, VITA" कहने की आवश्यकता नहीं है, यह आपकी बात करते समय तुरंत प्रतिक्रिया दे सकता है, यहां तक कि जब आप दूसरों से बात कर रहे हों, तब भी यह शिष्टता बनाए रखता है और बेवजह नहीं बोलता।

ओपन-सोर्स अग्रणी: VITA ओपन-सोर्स समुदाय के लिए मल्टी-मोडल समझ और इंटरैक्शन में एक महत्वपूर्ण कदम है, जो आगे के शोध के लिए आधार तैयार करता है।

VITA की जादू इसकी दोहरी मॉडल तैनाती से आती है। एक मॉडल उपयोगकर्ता के प्रश्नों का उत्तर देने के लिए जिम्मेदार है, जबकि दूसरा मॉडल पर्यावरण इनपुट की निरंतर निगरानी करता है, यह सुनिश्चित करता है कि हर इंटरैक्शन सटीक और समय पर हो।

VITA केवल बातचीत नहीं कर सकता, बल्कि जब आप व्यायाम कर रहे हों तो यह एक बातचीत के साथी के रूप में कार्य कर सकता है, यहां तक कि जब आप यात्रा कर रहे हों तो सुझाव भी दे सकता है। यह आपके द्वारा प्रदान की गई चित्रों या वीडियो सामग्री के आधार पर प्रश्नों का उत्तर देने की क्षमता भी रखता है, जो इसकी शक्तिशाली उपयोगिता को दर्शाता है।

हालांकि VITA ने पहले ही विशाल संभावनाएं दिखाई हैं, लेकिन भावनात्मक वॉयस सिंथेसिस और मल्टी-मोडल समर्थन जैसे क्षेत्रों में यह लगातार विकसित हो रहा है। शोधकर्ता अगले पीढ़ी के VITA को वीडियो और पाठ इनपुट से उच्च गुणवत्ता वाली ऑडियो उत्पन्न करने की योजना बना रहे हैं, यहां तक कि उच्च गुणवत्ता वाली ऑडियो और वीडियो को एक साथ उत्पन्न करने की संभावना की भी खोज कर रहे हैं।

VITA मॉडल का ओपन-सोर्स होना केवल तकनीकी जीत नहीं है, बल्कि स्मार्ट इंटरैक्शन के तरीके में एक गहरा सुधार है। जैसे-जैसे शोध आगे बढ़ता है, हमें विश्वास है कि VITA हमें और अधिक स्मार्ट, और अधिक मानवता आधारित इंटरैक्टिव अनुभव प्रदान करेगा।

पेपर का पता: https://arxiv.org/pdf/2408.05211

GPT-4o स्तर! VITA-1.5: रीयल-टाइम दृश्य और वॉयस इंटरएक्शन, 1.5 सेकंड इंटरएक्शन देरी

हाल ही में, VITA-MLLM टीम ने VITA-1.5 लॉन्च करने की घोषणा की, जो VITA-1.0 के आधार पर एक उन्नत संस्करण है, जिसका उद्देश्य मल्टीमोडल इंटरएक्शन की रीयल-टाइम और सटीकता को बढ़ाना है। VITA-1.5 न केवल अंग्रेजी और चीनी का समर्थन करता है, बल्कि कई प्रदर्शन संकेतकों में महत्वपूर्ण सुधार भी किया गया है, जो उपयोगकर्ताओं को एक अधिक सहज इंटरएक्शन अनुभव प्रदान करता है। VITA-1.5 में, इंटरएक्शन की देरी मूल 4 सेकंड से घटाकर केवल 1.5 सेकंड कर दी गई है, जिससे उपयोगकर्ता वॉयस इंटरएक्शन करते समय लगभग कोई देरी महसूस नहीं करते।

Kunlun Wanwei 'Tiangong Large Model 4.0' o1 Version Skywork o1 Officially Launches Invitation for Testing

Kunlun Wanwei Technology Co., Ltd. announced that its 'Tiangong Large Model 4.0' o1 version (Skywork o1) has officially launched an invitation for testing. This news marks an important step for the company in the field of general artificial intelligence, aiming to achieve higher-level artificial intelligence applications through technological innovation.

Civitai ने "हरा" नया साइट Civitai Green लॉन्च किया, अब डाउनलोड मॉडल छिपकर नहीं करना पड़ेगा

Civitai Green साइट का लॉन्च प्लेटफॉर्म को शुद्ध, पेशेवर AI कला निर्माण वातावरण में बदलने का प्रतीक है, जो अश्लील सामग्री को पूरी तरह से त्यागता है और रचनाकारों को सुरक्षित, उपयुक्त चित्र और मॉडल संसाधन प्रदान करता है, कार्यस्थल के उपयोगकर्ता अनुभव को बेहतर बनाता है। Civitai Green के माध्यम से, प्लेटफॉर्म न केवल संसाधनों की उच्च गुणवत्ता और विविधता सुनिश्चित करता है, बल्कि अधिक कुशल भुगतान प्रोसेसर Paddle को भी पेश करता है, जो उपयोगकर्ता भुगतान अनुभव को अनुकूलित करता है। यह परिवर्तन प्लेटफॉर्म के व्यवसायिक विकास के लिए फायदेमंद है और सामुदायिक पारिस्थितिकी को मजबूत करता है, कार्यों को साझा करके।

स्टेबिलिटी एआई का SD3 लाइसेंस समस्याओं के कारण विवाद में, CivitAI समुदाय ने संबंधित सामग्री पर प्रतिबंध लगाया

स्टेबिलिटी एआई द्वारा हाल ही में जारी किए गए महत्वपूर्ण मॉडल स्टेबल डिफ्यूजन 3 (SD3) को इसके प्रतिबंधात्मक लाइसेंस शर्तों के कारण AI समुदाय की तीव्र विरोध का सामना करना पड़ा है, इस विवाद ने स्टेबल डिफ्यूजन समुदाय के एक केंद्र में प्रतिबंध लगाया है, जिसने सोमवार को SD3 से संबंधित कार्यों पर प्रतिबंध लगा दिया।

AI समाचार

腾讯 ने पहला ओपन-सोर्स मल्टी-मोडल लैंग्वेज मॉडल VITA लॉन्च किया, जो उपयोगकर्ताओं के साथ बाधारहित संवाद कर सकता है

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

GPT-4o स्तर! VITA-1.5: रीयल-टाइम दृश्य और वॉयस इंटरएक्शन, 1.5 सेकंड इंटरएक्शन देरी

Kunlun Wanwei 'Tiangong Large Model 4.0' o1 Version Skywork o1 Officially Launches Invitation for Testing

Civitai ने "हरा" नया साइट Civitai Green लॉन्च किया, अब डाउनलोड मॉडल छिपकर नहीं करना पड़ेगा

स्टेबिलिटी एआई का SD3 लाइसेंस समस्याओं के कारण विवाद में, CivitAI समुदाय ने संबंधित सामग्री पर प्रतिबंध लगाया