Le modèle de langage de grande taille Tele-FLM, développé conjointement par l'Institut de recherche sur l'intelligence artificielle de Beijing Zhiyuan et l'Institut de recherche sur l'intelligence artificielle de China Telecom (TeleAI), a récemment fait l'objet d'une mise à jour. Ont été lancés le modèle d'instructions FLM-2-52B-Instruct (52 milliards de paramètres) et le Tele-FLM-1T, premier modèle dense monolithique à un trillion de paramètres au monde. Le rapport technique et les checkpoints des modèles sont désormais en open source.
FLM-2-52B-Instruct est un modèle de dialogue par instructions obtenu par réglage fin par instructions à partir du modèle de base Tele-FLM-52B. Il se concentre sur l'amélioration des capacités de dialogue en chinois. Entraîné sur un million de données d'instructions open source grâce à un réglage fin supervisé, il a obtenu ses meilleurs résultats sur un sous-ensemble de 30 000 données. Ces données comprennent des problèmes mathématiques, du code et des données de dialogue à plusieurs tours. L'entraînement du modèle a utilisé des paramètres spécifiques de taille de lot, de taux d'apprentissage et d'epochs, et a été évalué sur la plateforme d'évaluation AlignBench. Les résultats montrent que FLM-2-52B-Instruct atteint 90 % des performances de GPT-4 en matière de capacité de dialogue en chinois.
Tele-FLM-1T est le premier modèle dense à un trillion de paramètres open source au monde. Il utilise un pré-entraînement incrémental pour réduire les coûts. Sa structure est une amélioration des Transformers decoder-only de la série GPT, incluant des multiplicateurs d'entrée et de sortie, un encodage de position rotationnel, RMSNorm et SwiGLU. La stratégie de croissance comprend une croissance horizontale et verticale, utilisant un opérateur de conservation basé sur MSG amélioré. Des hyperparamètres spécifiques ont été utilisés pendant le pré-entraînement.
Lien open source du modèle FLM-2-52B-Instruct :
https://huggingface.co/CofeAI/FLM-2-52B-Instruct-2407
Lien open source du modèle Tele-FLM-1T :
https://huggingface.co/CofeAI/Tele-FLM-1T
Lien du rapport technique 52B + 1T :
https://arxiv.org/abs/2407.02783
Lien du rapport technique du modèle de base 52B :
https://arxiv.org/abs/2404.16645