LLaVA-OneVision

बहुविधा दृश्य कार्यों के लिए एक कुशल रूपांतरण मॉडल

सामान्य उत्पादछविबहुविधादृश्य पहचान
LLaVA-OneVision एक बहुविधा बड़ा भाषा मॉडल (LMMs) है जिसे बाइटडांस और कई विश्वविद्यालयों के सहयोग से विकसित किया गया है। यह एकल छवि, बहु-छवि और वीडियो परिदृश्यों में खुले बड़े बहुविधा मॉडल के प्रदर्शन की सीमाओं को आगे बढ़ाता है। इस मॉडल की संरचना विभिन्न modalities/परिदृश्यों के बीच शक्तिशाली स्थानांतरण अधिगम की अनुमति देती है, जिससे नई व्यापक क्षमताएँ प्रदर्शित होती हैं, खासकर वीडियो समझ और क्रॉस-दृश्य क्षमताओं के संदर्भ में, जिन्हें इमेज-टू-वीडियो कार्य रूपांतरण के माध्यम से प्रदर्शित किया गया है।
वेबसाइट खोलें

LLaVA-OneVision नवीनतम ट्रैफ़िक स्थिति

मासिक कुल विज़िट

80956

बाउंस दर

52.28%

प्रति विज़िट औसत पृष्ठ

1.2

औसत विज़िट अवधि

00:00:34

LLaVA-OneVision विज़िट प्रवृत्ति

LLaVA-OneVision विज़िट भौगोलिक वितरण

LLaVA-OneVision ट्रैफ़िक स्रोत

LLaVA-OneVision विकल्प