Le 27 février 2025, Tencent a officiellement lancé HunYuan Turbo S, un nouveau modèle de pensée rapide, marquant une avancée majeure en termes de vitesse de réponse et d'optimisation des performances des grands modèles. Contrairement aux modèles de pensée lente traditionnels tels que DeepSeek R1 et HunYuan T1, HunYuan Turbo S offre une réponse quasi instantanée, augmentant considérablement la vitesse de sortie des réponses, doublant la vitesse de génération de texte et réduisant le délai de premier mot de 44 %. Cette innovation permet au modèle d'exceller dans de nombreux domaines, tels que la connaissance, les mathématiques et la création, offrant une nouvelle solution pour la rapidité de réponse des grands modèles.

L'inspiration de HunYuan Turbo S provient du processus décisionnel humain, où 90 à 95 % reposent sur l'intuition (pensée rapide), combinée à la pensée lente (analyse rationnelle). Cette approche fournit au grand modèle une capacité de résolution de problèmes plus intelligente et plus efficace. Grâce à la fusion des chaînes de pensée courtes et longues, le modèle conserve une expérience rapide sur les problèmes de sciences humaines tout en améliorant considérablement ses capacités de raisonnement scientifique, entraînant une amélioration significative des performances globales. Dans plusieurs tests de référence publics couramment utilisés dans l'industrie, HunYuan Turbo S a démontré des performances comparables à celles de modèles de pointe tels que DeepSeek V3, GPT4o et Claude.

微信截图_20250227173715.png

En termes d'innovation architecturale, HunYuan Turbo S adopte un mode de fusion Hybrid-Mamba-Transformer, réduisant efficacement la complexité de calcul de la structure Transformer traditionnelle et l'occupation du cache KV, ce qui diminue considérablement les coûts de formation et d'inférence. Cette architecture hybride surmonte les difficultés liées aux coûts élevés de formation et d'inférence des grands modèles traditionnels sur de longs textes, tirant parti des avantages de l'architecture Mamba pour le traitement de longues séquences tout en conservant la capacité du Transformer à capturer des contextes complexes. Il s'agit du premier cas réussi dans l'industrie d'une application sans perte de l'architecture Mamba à un modèle MoE de très grande taille.

En tant que base essentielle de la série HunYuan de Tencent, HunYuan Turbo S fournira à l'avenir des capacités de base pour les modèles dérivés d'inférence, de longs textes et de code. Sur la base de Turbo S, Tencent a également lancé le modèle d'inférence T1, doté d'une capacité de réflexion approfondie, qui a été entièrement déployé sur Tencent Yuanbao et dont l'API sera bientôt accessible au public.

Actuellement, les développeurs et les entreprises peuvent accéder à HunYuan Turbo S via une API sur le site Web de Tencent Cloud et bénéficier d'une période d'essai gratuite d'une semaine. Le modèle est tarifé à 0,8 yuan/million de jetons en entrée et 2 yuans/million de jetons en sortie, soit une réduction significative par rapport au modèle HunYuan Turbo précédent. De plus, HunYuan Turbo S sera progressivement déployé en mode gris sur Tencent Yuanbao, permettant aux utilisateurs de sélectionner le modèle « HunYuan » et de désactiver la fonction de réflexion approfondie pour l'essayer.

Demande d'essai gratuit de l'API du modèle Tencent HunYuan Turbo S : https://cloud.tencent.com/apply/p/i2zophus2x8