El modelo multi-modal de origen chino CogVLM-17B, desarrollado en colaboración entre la Universidad Tsinghua y ZhiPu AI, ha demostrado un rendimiento excepcional. Este modelo puede identificar objetos en imágenes y distinguir entre objetos completamente visibles y parcialmente visibles.
CogVLM-17B emplea un método único de fusión profunda, utilizando cuatro componentes clave para lograr una alineación profunda entre las características de la imagen y las características del texto. En varios campos, este modelo ha superado a los modelos de Google, siendo apodado el "guerrero de 14 lados" ("guerrero de 14 pentágonos" sería una traducción más literal pero menos natural), demostrando una excepcional capacidad de procesamiento multi-modal.
Este modelo multi-modal de origen chino proporciona nuevas ideas y posibilidades para la investigación tecnológica en el campo de la multi-modalidad.