Beijing Zhipu Huazhang Technology Co., Ltd. a annoncé le 16 janvier 2025 le lancement d'une série de nouveaux modèles, disponibles sur bigmodel.cn. Après le lancement de « Zhipu Qingyan » en août, la société a approfondi ses recherches dans les domaines de la compréhension et de la génération du langage, de la voix, des images et des vidéos, donnant naissance à des modèles multimodaux tels que GLM-Voice, GLM-4V, CogView et CogVideoX.
Le nouveau modèle de bout en bout GLM-Realtime, lancé cette fois-ci, offre une compréhension vidéo et une interaction vocale à faible latence. Il intègre une fonction de chant et prend en charge une mémoire de 2 minutes ainsi que la fonction Function Call. La société a également mis à niveau simultanément les modèles GLM-4-Air et GLM-4V-Plus, visant à fournir des solutions de modèles linguistiques offrant les meilleures performances et le meilleur rapport qualité-prix du secteur. Zhipu s'engage à faire profiter la société des technologies de modèles de grande taille avancées et a créé le modèle Flash multi-modal gratuit, couvrant plusieurs scénarios tels que le langage, la génération d'images à partir de texte, la génération de vidéos à partir de texte et la compréhension d'images, pour aider les développeurs à innover facilement.
GLM-Realtime possède une capacité de mémoire de 2 minutes pour les appels vidéo et, pour l'interaction vocale, intègre de manière innovante une fonction de chant, permettant au grand modèle de chanter pendant une conversation. La société a intégré l'API Realtime à des lunettes intelligentes et à des poupées compagnons afin que les utilisateurs puissent bénéficier d'une interaction avec un assistant intelligent quasi instantanée. Realtime prend également en charge la fonction Function Call, lui permettant d'utiliser ses propres connaissances et capacités pour appeler de manière flexible des connaissances et des outils externes, étendant ainsi ses applications à des scénarios commerciaux plus vastes. L'API GLM-Realtime est disponible sur la plateforme ouverte de Zhipu, bigmodel.cn, et son utilisation est actuellement gratuite.
GLM-4-Air, apprécié des développeurs pour son excellent rapport qualité-prix depuis son lancement, est passé à la version GLM-4-Air-0111. Grâce à l'optimisation des données et des processus d'entraînement, ses performances atteignent, sur certains aspects, celles du modèle GLM-4-Plus, plus volumineux, tout en voyant son prix divisé par deux, réduisant ainsi le coût d'utilisation des grands modèles. Le modèle de compréhension visuelle GLM-4V-Plus a également été entièrement mis à niveau. La nouvelle version affiche des améliorations significatives dans plusieurs classements publics, prend en charge la résolution variable pour s'adapter aux images de différentes tailles, réduit considérablement la consommation de jetons pour les petites images, prend en charge la reconnaissance sans perte d'images 4K ultra-haute définition et d'images avec des rapports largeur/hauteur extrêmes, et possède une capacité de compréhension vidéo de 2 heures, offrant une solution efficace et précise pour la compréhension et l'analyse de longues vidéos.
Zhipu s'engage à rendre les grands modèles accessibles à tous. Pour soutenir l'innovation des développeurs, il a mis en place une série d'API de modèles Flash gratuites pour l'ensemble de la communauté. Première série de modèles gratuits multimodaux du secteur, elle permet aux développeurs d'utiliser gratuitement les fonctions de langage, de compréhension multimodale et de génération multimodale. La série Flash sera prochainement mise à niveau et comprendra les modèles suivants : le modèle linguistique GLM-4-Flash, le modèle de compréhension d'images GLM-4V-Flash, le modèle de génération d'images CogView-3-Flash et le modèle de génération de vidéos CogVideoX-Flash.