LLaVA-OneVision es un gran modelo multimodal (LMM) desarrollado conjuntamente por ByteDance y varias universidades. Impulsa los límites de rendimiento de los modelos multimodales abiertos de gran escala en escenarios de una sola imagen, múltiples imágenes y vídeo. El diseño del modelo permite un potente aprendizaje por transferencia entre diferentes modalidades/escenarios, mostrando nuevas capacidades integrales, especialmente en la comprensión de vídeo y la capacidad inter-escenarios, demostrada a través de la transferencia de tareas de imagen a vídeo.