Beijing Zhihu Huazhang Technology Co., Ltd. a récemment annoncé la mise à disposition gratuite au public de l'API de son grand modèle linguistique GLM-4-Flash, afin de promouvoir la popularisation et l'application de cette technologie.

Le modèle GLM-4-Flash présente des avantages significatifs en termes de vitesse et de performances, notamment en ce qui concerne la vitesse d'inférence. Grâce à des mesures d'optimisation telles que la quantification adaptative des poids, le traitement parallèle, les stratégies de traitement par lots et l'échantillonnage spéculatif, il a atteint une vitesse stable de 72,14 jetons/s, une performance remarquable parmi les modèles similaires.

Zhihu AI

En termes d'optimisation des performances, le modèle GLM-4-Flash a utilisé 10 To de données multilingues de haute qualité lors de la phase de pré-entraînement. Cela lui permet non seulement de gérer des tâches telles que les dialogues multitours, la recherche sur le web et l'appel d'outils, mais aussi de prendre en charge l'inférence sur de longs textes, avec une longueur de contexte maximale pouvant atteindre 128 K. De plus, ce modèle prend en charge 26 langues, dont le chinois, l'anglais, le japonais, le coréen et l'allemand, démontrant ainsi ses puissantes capacités multilingues.

Afin de répondre aux besoins spécifiques des différents utilisateurs, Zhihu AI propose également une fonction d'ajustement fin du modèle, permettant aux utilisateurs d'adapter au mieux le modèle GLM-4-Flash à divers scénarios d'application. Cette initiative de Zhihu AI vise à permettre à un public plus large d'expérimenter et d'utiliser les technologies de grands modèles avancés, afin d'étendre encore les limites d'application de l'IA.

Adresse de l'interface : https://open.bigmodel.cn/dev/api#glm-4