GLM-Zero-Preview est le premier modèle d'inférence basé sur l'apprentissage par renforcement étendu développé par Zhipu. Il vise à améliorer les capacités d'inférence de l'IA et excelle dans le traitement de la logique mathématique, du code et des problèmes complexes nécessitant une inférence approfondie. Comparé aux modèles de base, il affiche une amélioration significative des capacités de tâches expertes sans compromettre de manière notable les performances sur les tâches générales. Ses performances sont comparables à celles d'OpenAI o1-preview lors des évaluations AIME 2024, MATH500 et LiveCodeBench. Zhipu, en tant que société technologique, s'engage à améliorer les capacités d'inférence approfondie des modèles grâce à la technologie d'apprentissage par renforcement, et lancera prochainement la version officielle de GLM-Zero pour étendre ses capacités de réflexion approfondie à davantage de domaines techniques.