ByteDance a récemment annoncé le lancement de son nouveau framework de sélection de données, QuaDMix, conçu pour améliorer l'efficacité et les capacités de généralisation de l'entraînement préalable des grands modèles linguistiques (LLM).

QQ_1745804240748.png

Il est bien connu que les performances d'entraînement d'un modèle sont fortement influencées par la qualité et la diversité du jeu de données de base. Cependant, les méthodes traditionnelles de filtrage des données considèrent souvent la qualité et la diversité comme deux objectifs indépendants, effectuant d'abord un filtrage de qualité, puis un équilibrage des domaines.

Cette approche d'optimisation progressive ignore la relation complexe entre la qualité et la diversité. Les jeux de données de haute qualité présentent souvent un biais de domaine, tandis que les jeux de données diversifiés peuvent compromettre la qualité. Par conséquent, avec un budget d'entraînement fixe, la manière d'optimiser simultanément ces deux dimensions pour maximiser les performances du modèle est devenue un défi urgent.

Le framework QuaDMix fonctionne principalement en trois phases : extraction de caractéristiques, agrégation de la qualité et échantillonnage sensible à la qualité et à la diversité. Dans la phase initiale, chaque document est annoté avec des étiquettes de domaine et plusieurs scores de qualité. En normalisant et en fusionnant ces scores, un score de qualité global est généré. Ensuite, le système échantillonne les documents via une fonction basée sur la sigmoïde, en privilégiant les échantillons de haute qualité et en assurant l'équilibre des domaines grâce à un contrôle paramétrique.

Pour optimiser le modèle, QuaDMix a entraîné des milliers de modèles proxy avec différents paramètres. Le modèle de régression entraîné par ces expériences proxy peut prédire les résultats de performance, permettant ainsi d'identifier la meilleure configuration d'échantillonnage. Cette méthode permet une exploration structurée de l'espace des paramètres à haute dimension, permettant une meilleure connexion entre la sélection des données et les tâches en aval.

Les résultats expérimentaux montrent que QuaDMix, lors d'expériences de validation sur le jeu de données RefinedWeb, a atteint un score moyen de 39,5 %, surpassant plusieurs modèles de référence. Ces modèles de référence incluent la sélection aléatoire, Fineweb-edu, AskLLM, DCLM, etc. Les résultats expérimentaux montrent que la stratégie d'optimisation conjointe surpasse toujours les méthodes se concentrant uniquement sur la qualité ou la diversité. De plus, le mélange de données optimisé améliore les performances de tâches en aval spécifiques.

QuaDMix fournit une solution systémique à la sélection des données d'entraînement préalable des grands modèles linguistiques, résolvant le défi de longue date de l'optimisation simultanée de la qualité et de la diversité des données. En combinant l'agrégation de la qualité et l'échantillonnage sensible au domaine, QuaDMix établit une méthodologie évolutive qui améliore l'efficacité de l'entraînement préalable des LLM.

Points clés :

🌟 QuaDMix est un nouveau framework de ByteDance conçu pour optimiser simultanément la qualité et la diversité des données dans l'entraînement préalable des grands modèles linguistiques.

📈 Ce framework utilise un processus en trois phases : extraction de caractéristiques, agrégation de la qualité et échantillonnage sensible à la qualité et à la diversité, pour réaliser la sélection des données.

🔍 Les résultats expérimentaux montrent que QuaDMix excelle dans plusieurs tests de référence, atteignant un score moyen de 39,5 %, dépassant plusieurs méthodes traditionnelles.