Tencent a publié aujourd'hui le modèle linguistique de grande taille open source MOE Hunyuan-large, avec un total de 398 milliards de paramètres et 52 milliards de paramètres activés. Les résultats des tests publics montrent que Tencent Hunyuan-large surpasse les modèles open source de premier plan tels que Llama 3.1 et Mixtral sur plusieurs ensembles de tests multidisciplinaires (CMMLU, MMLU, CEva-1, MATH) ainsi que sur 9 dimensions clés incluant le traitement du langage naturel (en chinois et en anglais), le codage et les mathématiques.

QQ20241105-173053.png

Ce modèle est innovant car il permet la synthèse de données de haute qualité. L'augmentation de l'entraînement grâce à des données synthétiques compense efficacement le manque de données naturelles. En termes de traitement contextuel, le modèle pré-entraîné prend en charge des séquences textuelles allant jusqu'à 256 000 jetons, améliorant considérablement la capacité de traitement des tâches à long contexte.

QQ20241105-173103.png

Par ailleurs, Tencent Hunyuan annonce la publication prochaine d'un ensemble de tests open source, « PenguinScrolls », pour pallier le manque de corpus de textes longs et réalistes dans le secteur. Cet ensemble de données, développé en interne, est basé sur des textes longs et publics provenant de la finance, du droit et du monde académique. Sa longueur varie de 1 000 à 128 000 jetons et couvre diverses tâches de compréhension en lecture approfondie et de raisonnement sur de longs textes.

La publication du modèle linguistique de grande taille Tencent Hunyuan-large et la mise à disposition open source de l'ensemble de tests PenguinScrolls offriront à la communauté un modèle linguistique plus performant et des outils d'évaluation améliorés, stimulant ainsi le développement du traitement du langage naturel et de l'intelligence artificielle.

Adresse du site web : https://llm.hunyuan.tencent.com