LLaVA-OneVision
बहुविधा दृश्य कार्यों के लिए एक कुशल रूपांतरण मॉडल
सामान्य उत्पादछविबहुविधादृश्य पहचान
LLaVA-OneVision एक बहुविधा बड़ा भाषा मॉडल (LMMs) है जिसे बाइटडांस और कई विश्वविद्यालयों के सहयोग से विकसित किया गया है। यह एकल छवि, बहु-छवि और वीडियो परिदृश्यों में खुले बड़े बहुविधा मॉडल के प्रदर्शन की सीमाओं को आगे बढ़ाता है। इस मॉडल की संरचना विभिन्न modalities/परिदृश्यों के बीच शक्तिशाली स्थानांतरण अधिगम की अनुमति देती है, जिससे नई व्यापक क्षमताएँ प्रदर्शित होती हैं, खासकर वीडियो समझ और क्रॉस-दृश्य क्षमताओं के संदर्भ में, जिन्हें इमेज-टू-वीडियो कार्य रूपांतरण के माध्यम से प्रदर्शित किया गया है।
LLaVA-OneVision नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
80956
बाउंस दर
52.28%
प्रति विज़िट औसत पृष्ठ
1.2
औसत विज़िट अवधि
00:00:34