Version compacte de Llama3 ! Nvidia lance le petit modèle linguistique Llama-3.1-Minitron4B, avec seulement 400 millions de paramètres

AIbase基地

Publié leActualités IA · 6 minutes de lecture · Aug 21, 2024

453

À l'heure où les entreprises technologiques s'efforcent d'intégrer l'intelligence artificielle dans les appareils, de plus en plus de petits modèles linguistiques (SLM) capables de fonctionner sur des appareils aux ressources limitées voient le jour. Récemment, l'équipe de recherche de Nvidia a utilisé des techniques de pointe de réduction et de distillation de modèles pour lancer Llama-3.1-Minitron4B, une version compressée du modèle Llama3. Ce nouveau modèle offre des performances comparables à celles de modèles plus importants et à celles d'autres petits modèles de taille similaire, tout en étant plus efficace en termes d'entraînement et de déploiement.

La réduction et la distillation sont deux techniques clés pour créer des modèles linguistiques plus petits et plus efficaces. La réduction consiste à supprimer les parties non essentielles du modèle, y compris la « réduction en profondeur » — suppression de couches entières — et la « réduction en largeur » — suppression d'éléments spécifiques tels que les neurones et les têtes d'attention. La distillation de modèles, quant à elle, consiste à transférer les connaissances et les capacités d'un grand modèle (le « modèle enseignant ») vers un modèle plus petit et plus simple (le « modèle élève »).

La distillation se fait principalement de deux manières : la première consiste à utiliser l'« entraînement SGD » pour permettre au modèle élève d'apprendre les entrées et les réponses du modèle enseignant, la seconde est la « distillation de connaissances classique », où le modèle élève apprend non seulement les résultats, mais aussi les activations internes du modèle enseignant.

Dans une étude précédente, les chercheurs de Nvidia ont réussi à réduire le modèle Nemotron15B à un modèle de 800 millions de paramètres, puis à 400 millions de paramètres, grâce à la réduction et à la distillation. Ce processus a non seulement amélioré les performances de 16 % sur le célèbre test de référence MMLU, mais a également nécessité 40 fois moins de données d'entraînement qu'un entraînement à partir de zéro.

Cette fois-ci, l'équipe Nvidia a créé un modèle de 400 millions de paramètres à partir du modèle Llama3.18B en utilisant la même méthode. Tout d'abord, ils ont peaufiné le modèle 8B non réduit sur un ensemble de données contenant 940 milliards de jetons afin de gérer les différences de distribution entre les données d'entraînement et les données de distillation. Ensuite, ils ont utilisé la réduction en profondeur et la réduction en largeur pour obtenir deux versions différentes de Llama-3.1-Minitron4B.

Les chercheurs ont affiné les modèles réduits à l'aide de NeMo-Aligner et ont évalué leurs capacités en matière de suivi d'instructions, de jeu de rôle, de génération améliorée par la recherche (RAG) et d'appels de fonctions.

Les résultats montrent que malgré le volume réduit de données d'entraînement, les performances de Llama-3.1-Minitron4B sont proches de celles d'autres petits modèles, ce qui est remarquable. La version à réduction de largeur a été publiée sur Hugging Face et autorise un usage commercial, permettant ainsi à un plus grand nombre d'utilisateurs et de développeurs de bénéficier de ses performances efficaces et exceptionnelles.

Blog officiel : https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/

Points clés :
🌟 Llama-3.1-Minitron4B est un petit modèle linguistique lancé par Nvidia, basé sur des techniques de réduction et de distillation, offrant une capacité d'entraînement et de déploiement efficace.
📈 Le nombre de jetons utilisés pendant l'entraînement de ce modèle est 40 fois inférieur à celui d'un entraînement à partir de zéro, tout en améliorant sensiblement les performances.
🔓 La version à réduction de largeur a été publiée sur Hugging Face et est disponible pour un usage commercial et le développement.

Zyphra lance Zamba2-2.7B, un petit modèle linguistique : vitesse doublée, coût mémoire réduit de 27 %

Zyphra a lancé Zamba2-2.7B, un modèle linguistique marquant dans le domaine des petits modèles linguistiques. Ses performances et son efficacité sont considérablement améliorées. Entraîné sur un ensemble de données d'environ 3 000 milliards de jetons, il réduit les besoins en ressources lors de l'inférence, devenant une solution efficace pour les applications sur appareils mobiles. Les points forts clés incluent une première génération de réponse deux fois plus rapide, une réduction de 27 % de l'utilisation de la mémoire et une réduction de 1,29 fois du délai de génération. Il est particulièrement adapté aux applications nécessitant une interaction en temps réel, telles que les assistants virtuels et les robots de conversation. Zamba2-2.

Optimisation simplifiée ! Microsoft lance le réglage fin sans serveur pour le petit modèle linguistique Phi-3

Microsoft a annoncé le lancement d'une fonctionnalité de réglage fin sans serveur pour son petit modèle linguistique Phi-3, permettant aux développeurs d'ajuster facilement les performances du modèle sur la plate-forme Azure AI, sans avoir à gérer l'infrastructure sous-jacente, et initialement gratuitement. Le modèle Phi-3, doté de 3 milliards de paramètres, convient aux développeurs d'entreprise, offrant des performances efficaces à faible coût. Comparé à GPT-3.5 d'OpenAI, bien qu'il possède moins de paramètres, il offre des performances similaires dans diverses applications. Le réglage fin sans serveur simplifie les opérations, réduit les obstacles et prend en charge le réglage fin des modèles petits et moyens. Cela

NVIDIA lance Minitron, un petit modèle linguistique 40 fois plus rapide à entraîner

NVIDIA a récemment lancé Minitron, une série de petits modèles linguistiques de 4 et 8 milliards de paramètres, offrant une vitesse d'entraînement 40 fois supérieure et réduisant considérablement les besoins en ressources et en données, ce qui permet de réaliser des économies de coûts. En combinant les techniques de « élagage » et de « distillation de la connaissance », les modèles Minitron réduisent leur taille tout en maintenant leurs performances, permettant aux développeurs d'utiliser des technologies de pointe à moindre coût pour des applications telles que la traduction, l'analyse des sentiments et les IA conversationnelles. Le caractère open source de Minitron permet à un plus grand nombre de personnes d'y accéder et de l'utiliser facilement.

Fonctionne sur mobile ! Hugging Face lance SmolLM, un petit modèle linguistique aux performances exceptionnelles

Hugging Face vient de publier SmolLM, un outil IA petit et efficace. Ses caractéristiques principales sont une gamme de paramètres allant de 135 M à 1,7 G, conçu pour s'adapter à divers appareils tels que les téléphones portables et les ordinateurs portables. SmolLM se distingue par sa petite taille, ses performances élevées et sa faible consommation de ressources, et sa conception vise à protéger la vie privée des utilisateurs. Basé sur l'ensemble de données SmolLM-Corpus soigneusement sélectionné, le modèle montre une capacité d'apprentissage remarquable sur les données éducatives et synthétiques. La série SmolLM comprend trois versions de modèles : 135 M, 360 M et 1.