Le projet Imp vise à fournir une série de puissants modèles linguistiques multimodaux de petite taille (MSLM). Notre imp-v1-3b est un puissant MSLM doté de 3 milliards de paramètres. Il est construit sur un petit mais puissant SLM Phi-2 (2,7 milliards) et un puissant encodeur visuel SigLIP (400 millions), et a été entraîné sur l'ensemble de données LLaVA-v1.5. Imp-v1-3b surpasse nettement ses concurrents de taille similaire dans diverses évaluations de référence multimodales, et affiche même des performances légèrement supérieures au puissant modèle LLaVA-7B dans plusieurs évaluations de référence multimodales.