La société chinoise de technologie Zhipu AI a annoncé une série de mises à jour technologiques importantes le 29 août 2024, notamment le lancement d'une nouvelle génération de modèles de base et de nouveaux services d'application.

Lors de la conférence KDD2024, Zhipu a lancé une nouvelle génération de modèles de base, notamment le modèle linguistique GLM-4-Plus, le modèle d'image à partir de texte CogView-3-Plus, le modèle de compréhension d'images/vidéos GLM-4V-Plus et le modèle de génération de vidéos CogVideoX. Ces modèles ont atteint un niveau international de pointe dans leurs domaines respectifs.

Le modèle GLM-4-Plus a vu ses performances considérablement améliorées en matière de compréhension du langage, de suivi des instructions et de traitement de longs textes, atteignant un niveau comparable à celui des modèles de premier plan tels que GPT-4o. Le modèle CogView-3-Plus utilise une architecture Transformer à la place de l'architecture UNet traditionnelle, optimisant ainsi les résultats du modèle et atteignant des performances proches de celles des modèles de premier plan tels que MJ-V6 et FLUX. Le modèle GLM-4V-Plus offre des capacités de compréhension d'images et de vidéos de haute qualité, devenant ainsi la première API de compréhension vidéo universelle en Chine. Après avoir publié la version 2B, le modèle CogVideoX a également publié une version 5B open source, améliorant ainsi ses performances et devenant l'un des meilleurs modèles de génération de vidéos open source actuels.

微信截图_20240830075752.png

De plus, Zhipu a lancé sur l'application « Qingyan » le premier service d'appel vidéo en Chine destiné aux utilisateurs grand public. Ce service couvre les modalités texte, audio et vidéo et dispose de capacités d'inférence en temps réel, offrant aux utilisateurs une expérience interactive fluide.

Zhipu a également annoncé l'utilisation gratuite de l'API GLM-4-Flash, qui offre des avantages en termes de vitesse et de performances, permettant aux utilisateurs de construire rapidement et gratuitement des modèles et des applications personnalisés. Parallèlement, afin de répondre aux besoins des différents utilisateurs, Zhipu propose une fonction d'ajustement fin des modèles.

Zhipu a déclaré qu'elle continuerait à progresser, permettant aux machines de penser comme des humains et offrant aux utilisateurs des technologies et des services plus avancés.

Mises à jour principales :

  • Modèle linguistique de base GLM-4-Plus : Amélioration significative des performances en matière de compréhension du langage, de suivi des instructions et de traitement de longs textes, maintenant un niveau de pointe international.

  • Modèle de base d'image à partir de texte CogView-3-Plus : Performances proches de celles des meilleurs modèles actuels, tels que MJ-V6 et FLUX.

  • Modèle de base de compréhension d'images/vidéos GLM-4V-Plus : Excellentes capacités de compréhension d'images et de vidéos basées sur la perception temporelle. Ce modèle sera disponible sur la plateforme ouverte (bigmodel.cn) et deviendra la première API de compréhension vidéo universelle en Chine.

  • Modèle de base de génération de vidéos CogVideoX : Après la publication et l'open source de la version 2B, la version 5B est également officiellement open source, ses performances étant encore améliorées, ce qui en fait le meilleur choix parmi les modèles de génération de vidéos open source actuels.

  • Appel vidéo sur l'application « Qingyan » : Premier service d'appel vidéo en Chine ouvert aux utilisateurs grand public, la fonction d'appel vidéo de l'application « Qingyan » couvre les modalités texte, audio et vidéo et dispose de capacités d'inférence en temps réel.

  • API GLM-4-Flash : Service d'inférence entièrement gratuit, avec service d'ajustement fin.

Lien de demande de service d'appel vidéo :

https://zhipu-ai.feishu.cn/share/base/form/shrcnqpIx9q5ILEFeT2cPNhyuSf