Ces dernières années, l'entraînement de grands modèles de langage (LLM) est devenu de plus en plus coûteux et complexe, seuls quelques grandes entreprises technologiques disposant des ressources informatiques nécessaires. Cependant, Google a récemment lancé une nouvelle méthode appelée SALT (Small Model Assisted Large Model Training - Entraînement de grands modèles assisté par des petits modèles), une innovation qui pourrait révolutionner le paysage de l'entraînement de l'IA.

Robot Intelligence Artificielle IA (4)

Source : Image générée par IA, fournisseur de services d'autorisation d'images : Midjourney

Selon une récente publication conjointe de Google Research et DeepMind, « Un peu d'aide peut faire beaucoup : entraînement efficace des LLM grâce à l'exploitation de petits modèles de langage », SALT introduit un nouveau processus d'entraînement en deux phases. Cette méthode est non seulement efficace, mais aussi plus pratique, changeant notre façon d'entraîner les modèles.

La première phase de SALT est la distillation de connaissances. Dans cette phase, un petit modèle de langage (SLM) agit comme un enseignant, transmettant ses connaissances à un modèle plus grand. Le petit modèle partage ses connaissances acquises par le biais de « soft labels », aidant le grand modèle à maîtriser les concepts fondamentaux au début de son apprentissage. Cette phase est particulièrement utile pour les tâches « simples » où le petit modèle a une forte confiance dans ses prédictions.

La deuxième phase est l'apprentissage autosupervisé. Le grand modèle commence à apprendre de manière indépendante à cette étape, se concentrant sur la maîtrise de schémas plus complexes et de tâches plus difficiles. Cette transition nécessite des stratégies soigneusement conçues, notamment une décroissance linéaire et une décroissance linéaire proportionnelle, garantissant une transition en douceur pour le grand modèle, réduisant progressivement sa dépendance au petit modèle.

Les chercheurs de Google ont constaté lors d'expériences que l'utilisation d'un petit modèle de 1,5 milliard de paramètres pour entraîner un grand modèle de 2,8 milliards de paramètres a réduit le temps d'entraînement de 28 % sur l'ensemble de données « Stack ». Après un réglage fin, la précision du grand modèle sur les problèmes de mathématiques est passée de 31,84 % à 34,87 %, et la précision de la compréhension de la lecture est passée de 63,7 % à 67 %. Cette nouvelle méthode améliore non seulement l'efficacité de l'entraînement, mais aussi les performances.

L'apparition de SALT devrait abaisser le seuil de développement de l'IA, permettant à de nombreuses petites institutions et entreprises, auparavant limitées par les ressources, de participer au développement de modèles d'IA. Les opportunités de recherche et de développement seront plus répandues, ce qui pourrait donner naissance à des solutions d'IA plus uniques et spécialisées, stimulant l'innovation et les applications dans les domaines concernés.

Points clés :

🌟 La méthode SALT permet de réduire de 28 % le temps d'entraînement des grands modèles, réduisant considérablement les coûts de calcul.

📈 L'utilisation de petits modèles pour la distillation de connaissances permet d'améliorer considérablement les performances des grands modèles sur des tâches complexes.

🔍 L'innovation de SALT pourrait abaisser le seuil de développement de l'IA, permettant à davantage de petites institutions de participer à la recherche en IA.