LongVA est un modèle de transformation à long contexte capable de traiter plus de 2000 images ou plus de 200 000 marqueurs visuels. Il affiche des performances de pointe parmi les modèles de 7 milliards de paramètres sur Video-MME. Le modèle a été testé avec CUDA 11.8 et A100-SXM-80G, et peut être rapidement mis en œuvre via la plateforme Hugging Face.