LLaVA-o1 est un modèle linguistique visuel développé par l'équipe Tuple de l'Université de Pékin. Il est capable de raisonnement spontané et systématique, similaire à GPT-o1. Ce modèle a surpassé d'autres modèles dans six benchmarks multimodaux exigeants, notamment Gemini-1.5-pro, GPT-4o-mini et Llama-3.2-90B-Vision-Instruct. LLaVA-o1 résout les problèmes par raisonnement étape par étape, démontrant ainsi son avantage unique parmi les modèles linguistiques visuels.