CogVLM-17B : Un modèle multi-modal performant

Le modèle multi-modal CogVLM-17B, développé conjointement par l'Université Tsinghua et Zhihu AI, affiche des performances exceptionnelles. Ce modèle est capable d'identifier les objets présents dans une image, et ce, qu'ils soient entièrement ou partiellement visibles.

CogVLM-17B utilise une méthode unique de fusion profonde, mettant en œuvre un alignement profond des caractéristiques d'image et de texte grâce à quatre composants clés. Dans plusieurs domaines, ce modèle surpasse les modèles de Google, étant surnommé le "guerrier quatorze côtés" (littéralement "quatorze polygones"), ce qui témoigne de ses remarquables capacités de traitement multi-modal.

Ce modèle multi-modal national ouvre de nouvelles perspectives et possibilités pour la recherche technologique dans le domaine du multi-modal.