À l'heure où les grands modèles linguistiques se répandent, le déploiement efficace dans des environnements aux ressources limitées est devenu un enjeu majeur. Pour relever ce défi, la série de modèles légers DistilQwen2.5, basée sur Qwen2.5, est officiellement lancée. Ce modèle utilise un cadre innovant de distillation à deux niveaux, optimisant les données et la fusion des paramètres. Il préserve ainsi les performances du modèle tout en réduisant considérablement la consommation de ressources de calcul.
Le succès de DistilQwen2.5 repose sur sa technique unique de distillation de connaissances. Ce processus nécessite initialement un grand volume de données d'instructions de haute qualité, provenant de plusieurs ensembles de données open source et d'ensembles de données synthétiques privés. Pour garantir la diversité des données, l'équipe de recherche a étendu les données chinoises et anglaises à l'aide de Qwen-max, réalisant ainsi un équilibre entre les tâches et les langues. Ensuite, le modèle utilise une méthode de « distillation boîte noire » pour étendre, sélectionner et réécrire les instructions en utilisant la sortie du modèle enseignant. Cette approche améliore non seulement la qualité des données, mais renforce également les capacités de traitement multitâches du modèle.
Il est important de noter que DistilQwen2.5 introduit également une technique de distillation boîte blanche, imitant la distribution « its » du modèle enseignant pour rendre l'acquisition de connaissances par le modèle étudiant plus efficace. Cette technique évite les problèmes de consommation de mémoire GPU, de lenteur de stockage et de lecture rencontrés dans la distillation boîte blanche traditionnelle.
Après avoir été testé sur plusieurs benchmarks d'évaluation de suivi d'instructions reconnus, DistilQwen2.5 a démontré des performances remarquables, notamment sur AlpacaEval2.0 et MT-Bench. Cela marque une nouvelle étape dans le développement des grands modèles linguistiques légers, permettant de réduire considérablement les coûts de calcul tout en garantissant les performances, et favorisant ainsi l'adoption de la technologie de l'IA dans divers contextes d'application.
La publication open source de DistilQwen2.5 facilitera également le travail des développeurs, leur permettant d'utiliser plus facilement cet outil puissant et de contribuer à la démocratisation de la technologie de l'intelligence artificielle.