CogVLM-17B: Modelo Multimodal Chinês de Alto Desempenho

O modelo multimodal chinês CogVLM-17B, desenvolvido em parceria entre a Universidade Tsinghua e a empresa de IA ZhiPu AI, demonstrou desempenho excepcional. Este modelo consegue identificar objetos em imagens, distinguindo entre objetos completamente visíveis e parcialmente visíveis.

CogVLM-17B utiliza um método único de fusão profunda, alinhando profundamente as características de imagem e texto através de quatro componentes-chave. Em várias áreas, o modelo superou modelos do Google, sendo apelidado de "guerreiro de 14 lados" (um jogo de palavras que alude à sua versatilidade), demonstrando sua notável capacidade de processamento multimodal.

Este modelo multimodal chinês oferece novas perspectivas e possibilidades para a pesquisa tecnológica na área multimodal.