LongVA es un modelo de transformación de contexto largo capaz de procesar más de 2000 fotogramas o más de 200.000 marcas visuales. Su rendimiento en Video-MME lidera entre los modelos de 7B. El modelo se probó con CUDA 11.8 y A100-SXM-80G, y se puede iniciar y utilizar rápidamente a través de la plataforma Hugging Face.