MiniCPM-o 2.6 est le dernier modèle linguistique multimodal (MLLM) à grande échelle développé par l'équipe OpenBMB. Avec 8 milliards de paramètres, il permet de réaliser des diffusions en direct visuelles, vocales et multimodales de haute qualité sur des appareils mobiles tels que les téléphones. Ce modèle, construit sur SigLip-400M, Whisper-medium-300M, ChatTTS-200M et Qwen2.5-7B, est entraîné de manière bout en bout et offre des performances comparables à GPT-4o-202405. Ses principaux avantages incluent des capacités visuelles de pointe, des capacités vocales avancées, de puissantes capacités de diffusion multimodale en direct, une puissante capacité OCR et une efficacité supérieure. Ce modèle est open source et gratuit, utilisable à des fins de recherche académique et commerciales.