Récemment, l'équipe d'intelligence artificielle d'Apple, en collaboration avec plusieurs institutions, dont l'Université de Washington, a lancé un modèle linguistique open source appelé DCLM. Ce modèle compte 700 millions de paramètres et a été entraîné sur pas moins de 2,5 billions de jetons de données, contribuant ainsi à une meilleure compréhension et génération du langage.

Alors, qu'est-ce qu'un modèle linguistique ? En termes simples, c'est un programme capable d'analyser et de générer du langage, permettant d'accomplir diverses tâches telles que la traduction, la génération de texte et l'analyse des sentiments. Pour optimiser les performances de ces modèles, des ensembles de données de haute qualité sont nécessaires. Cependant, l'obtention et l'organisation de ces données ne sont pas une tâche aisée, car il faut filtrer les contenus non pertinents ou nuisibles et supprimer les informations redondantes.

Pour relever ce défi, l'équipe de recherche d'Apple a introduit « DataComp » (DataComp for Language Models, ou DCLM), un outil d'optimisation des ensembles de données pour les modèles linguistiques. Ils ont récemment publié en open source le modèle DCIM et les ensembles de données sur la plateforme Hugging Face. La version open source inclut DCLM-7B, DCLM-1B, dclm-7b-it, DCLM-7B-8k, dclm-baseline-1.0 et dclm-baseline-1.0-parquet, permettant aux chercheurs de réaliser de nombreuses expériences et de trouver les stratégies d'organisation de données les plus efficaces.

image.png

https://huggingface.co/collections/mlfoundations/dclm-669938432ef5162d0d0bc14b

L'avantage principal de DCLM réside dans son processus de travail structuré. Les chercheurs peuvent choisir des modèles de différentes tailles, de 412 millions à 700 millions de paramètres, et expérimenter différentes méthodes d'organisation des données, telles que la déduplication et le filtrage. Grâce à ces expérimentations systématiques, les chercheurs peuvent évaluer clairement la qualité des différents ensembles de données. Cela pose non seulement les bases de futures recherches, mais contribue également à comprendre comment améliorer les performances des modèles en améliorant les ensembles de données.

Par exemple, en utilisant les ensembles de données de référence établis par DCLM, l'équipe de recherche a entraîné un modèle linguistique de 700 millions de paramètres, obtenant un taux de précision de 64 % à 5 shots dans le test de référence MMLU ! Cela représente une amélioration de 6,6 points de pourcentage par rapport au meilleur résultat précédent, avec une réduction de 40 % des ressources de calcul utilisées. Les performances du modèle de référence DCLM sont également comparables à celles de Mistral-7B-v0.3 et Llama38B, qui nécessitent beaucoup plus de ressources de calcul.

image.png

Le lancement de DCLM établit une nouvelle référence pour la recherche sur les modèles linguistiques, aidant les scientifiques à améliorer systématiquement les performances des modèles tout en réduisant les ressources de calcul nécessaires.

Points clés :

1️⃣ Apple AI, en collaboration avec plusieurs institutions, lance DCLM, un puissant modèle linguistique open source.

2️⃣ DCLM fournit des outils standardisés d'optimisation des ensembles de données, permettant aux chercheurs de mener des expériences efficaces.

3️⃣ Le nouveau modèle a réalisé des progrès significatifs dans des tests importants, tout en réduisant les besoins en ressources de calcul.