MiniCPM-o 2.6 es el último modelo de lenguaje multimodal grande (MLLM) desarrollado por el equipo de OpenBMB. Con 8B de parámetros, permite funciones de transmisión en vivo visual, de voz y multimodal de alta calidad en dispositivos de borde como teléfonos móviles. Este modelo se basa en SigLip-400M, Whisper-medium-300M, ChatTTS-200M y Qwen2.5-7B, se entrena de forma end-to-end y su rendimiento es comparable al de GPT-4o-202405. Sus principales ventajas incluyen capacidades visuales líderes, capacidades de voz avanzadas, potentes capacidades de transmisión multimodal, capacidades sólidas de OCR y eficiencia superior. Este modelo es de código abierto y gratuito para uso académico y comercial.