LongVA एक ऐसा लंबा संदर्भ रूपांतरण मॉडल है जो 2000 से अधिक फ़्रेम या 200K से अधिक दृश्य टैग को संभाल सकता है। Video-MME में इसका प्रदर्शन 7B मॉडल में अग्रणी है। इस मॉडल का परीक्षण CUDA 11.8 और A100-SXM-80G पर किया गया है, और इसे Hugging Face प्लेटफ़ॉर्म के माध्यम से तेज़ी से लॉन्च और उपयोग किया जा सकता है।