LongVA ist ein Langkontext-Transformationsmodell, das über 2000 Frames oder über 200.000 visuelle Markierungen verarbeiten kann. Es erzielt im Video-MME Benchmark unter den 7B-Modellen führende Ergebnisse. Das Modell wurde mit CUDA 11.8 und A100-SXM-80G getestet und kann über die Hugging Face Plattform schnell gestartet und verwendet werden.