智谱AI vient de lancer son dernier modèle de base GLM-4-Plus, démontrant des capacités visuelles comparables à celles d'OpenAI GPT-4, et a annoncé son ouverture au public le 30 août. Cette avancée révolutionnaire marque non seulement un bond en avant pour la technologie IA nationale, mais offre également aux utilisateurs une expérience intelligente sans précédent.

Points forts des principales mises à jour :

  • Modèle linguistique de base GLM-4-Plus : a réalisé un bond qualitatif en matière d'analyse linguistique, d'exécution d'instructions et de traitement de longs textes, maintenant une position de leader sur la scène internationale.

  • Modèle de génération d'images CogView-3-Plus : des performances comparables aux meilleurs modèles du secteur, MJ-V6 et FLUX.

  • Modèle de compréhension d'images/vidéos GLM-4V-Plus : excelle non seulement dans la compréhension d'images, mais possède également des capacités de compréhension vidéo basées sur l'analyse de séries temporelles. Ce modèle sera bientôt disponible sur la plateforme ouverte bigmodel.cn et deviendra la première API de compréhension vidéo générale en Chine.

  • Modèle de génération vidéo CogVideoX : après le lancement et l'open source de la version 2B, la version 5B est également officiellement open source, avec des performances considérablement améliorées, devenant ainsi l'un des meilleurs modèles de génération vidéo open source actuels.

  • Le nombre total de téléchargements des modèles open source de Zhishu a dépassé 20 millions, contribuant de manière significative à la prospérité de la communauté open source.

image.png

GLM-4-Plus excelle dans plusieurs domaines clés. En termes de capacités linguistiques, le modèle a atteint un niveau internationalement avancé en matière de compréhension, de suivi des instructions et de traitement de longs textes, ses performances étant comparables à celles de GPT-4 et de Llama3.1 (405 milliards de paramètres). Il est particulièrement important de noter que GLM-4-Plus, grâce à une stratégie précise de mélange de données textuelles courtes et longues, a considérablement amélioré l'efficacité du raisonnement sur les longs textes.

image.png

Dans le domaine de l'intelligence visuelle, GLM-4V-Plus fait preuve d'une capacité exceptionnelle de compréhension des images et des vidéos. Il possède non seulement une capacité de perception temporelle, mais peut également traiter et comprendre des contenus vidéo complexes. Il est important de noter que ce modèle sera disponible sur la plateforme ouverte de Zhishu, devenant ainsi la première API de compréhension vidéo générale en Chine, offrant aux développeurs et aux chercheurs un outil puissant.

image.png

Par exemple, si vous lui donnez une vidéo et lui demandez ce que fait le joueur en vert tout au long de la vidéo, il peut décrire précisément les actions du joueur et vous indiquer précisément les moments forts de la vidéo en secondes :

image.png

Capture d'écran officielle

Zhishu AI a également réalisé des progrès révolutionnaires dans le domaine de la génération. CogView-3-Plus a atteint des performances de génération d'images à partir de texte proches des meilleurs modèles actuels, tels que MJ-V6 et FLUX. Simultanément, le modèle de génération vidéo CogVideoX a lancé une version 5B plus performante, considérée comme le meilleur choix parmi les modèles de génération vidéo open source actuels.

image.png

Le plus attendu est le lancement imminent de la fonction « appel vidéo » de l'application Qingyan de Zhishu, la première fonction d'appel vidéo IA ouverte aux consommateurs en Chine. Cette fonction couvre les trois modalités principales : texte, audio et vidéo, et possède une capacité d'inférence en temps réel. Les utilisateurs peuvent avoir des conversations fluides avec l'IA, même avec des interruptions fréquentes, et obtenir des réponses rapides.

Plus étonnant encore, il suffit d'ouvrir la caméra pour que l'IA puisse voir et comprendre ce que l'utilisateur voit, tout en exécutant avec précision les instructions vocales.

Cette fonction révolutionnaire d'appel vidéo sera lancée le 30 août et sera d'abord ouverte à certains utilisateurs de Qingyan, tout en acceptant les demandes externes. Cette innovation démontre non seulement les capacités techniques de Zhishu AI, mais ouvre également de nouvelles possibilités pour une intégration plus approfondie de l'intelligence artificielle dans la vie quotidienne.

Références : https://mp.weixin.qq.com/s/Ww8njI4NiyH7arxML0nh8w