La société Shenzhen Yuanxiang Information Technology Co., Ltd. a récemment annoncé la sortie réussie de XVERSE-MoE-A36B, le plus grand modèle linguistique open source Mixture of Experts (MoE) de Chine. Cette publication marque une avancée majeure pour la Chine dans le domaine de l'IA, portant les technologies open source nationales au niveau international.
XVERSE-MoE-A36B possède 255 milliards de paramètres au total et 36 milliards de paramètres activés. Ses performances sont comparables à celles des grands modèles de plus de 100 milliards de paramètres, représentant un bond qualitatif significatif. Le temps d'entraînement a été réduit de 30 %, les performances d'inférence ont été améliorées de 100 %, et le coût par jeton a été considérablement réduit, rendant le déploiement à faible coût des applications d'IA possible.
La suite de modèles « haute performance » de Yuanxiang XVERSE est désormais entièrement open source et disponible gratuitement pour un usage commercial, offrant ainsi davantage de choix aux PME, chercheurs et développeurs. L'architecture MoE, en combinant plusieurs modèles experts dans des domaines spécifiques, surmonte les limites des lois d'extensibilité traditionnelles. Elle permet d'augmenter l'échelle du modèle tout en maximisant ses performances et en réduisant les coûts de calcul pour l'entraînement et l'inférence.
Lors de plusieurs évaluations faisant autorité, les résultats de Yuanxiang MoE ont surpassé de manière significative ceux de nombreux modèles similaires, notamment le modèle MoE chinois Skywork-MoE, le modèle MoE dominant Mixtral-8x22B, et le modèle MoE open source Grok-1-A86B de 314 milliards de paramètres.
Téléchargement gratuit du grand modèle
Hugging Face : https://huggingface.co/xverse/XVERSE-MoE-A36B
Demande de renseignements : opensource@xverse.cn
Site web : chat.xverse.cn