Actualités IA

Ne manquez aucun moment de l'innovation mondiale en IA

IA Quotidien

Tendances quotidiennes de l'industrie de l'IA en trois minutes

Chronologie de l'IA

Jalons de l'industrie de l'IA

Guide de monétisation de l'IA

Derniers cas

Partage de cas de monétisation de l'IA

Collection d'images

Cas de monétisation de la création d'images par l'IA

Collection de vidéos

Cas de monétisation de la création de vidéos par l'IA

Collection audio

Cas de monétisation de la création audio par l'IA

Collection de contenu

Cas de monétisation de la rédaction de contenu par l'IA

Tutoriels IA

Derniers tutoriels

Partage gratuit des derniers tutoriels IA

Classements des produits IA

Classement des produits IA

Affiche le classement du nombre total de visites des sites web d'IA

Classement de la croissance du trafic IA

Suit les sites web d'IA à la croissance la plus rapide en termes de trafic

Classement de la baisse du trafic IA

Se concentre sur les sites web d'IA avec des baisses de trafic importantes

Classement hebdomadaire de l'IA

Affiche le classement hebdomadaire des visites des sites web d'IA

Classements des pays populaires

États-Unis

Sites web d'IA les plus populaires auprès des utilisateurs américains

Chine

Sites web d'IA les plus populaires auprès des utilisateurs chinois

Inde

Sites web d'IA les plus populaires auprès des utilisateurs indiens

Brésil

Sites web d'IA les plus populaires auprès des utilisateurs brésiliens

Classements des catégories populaires

Génération d'images

Classement du nombre total de visites des sites web de génération d'images par l'IA

Assistant personnel

Classement du nombre total de visites des sites web d'assistants personnels d'IA

Génération de personnages

Classement du nombre total de visites des sites web de génération de personnages par l'IA

Génération de vidéos

Classement du nombre total de visites des sites web de génération de vidéos par l'IA

Classements des données Open Source populaires

Classement des projets IA

Projets IA populaires sur GitHub par nombre total d'étoiles

Classement de la croissance des projets IA

Projets IA populaires sur GitHub par taux de croissance

Classement des développeurs IA

Classement des développeurs IA populaires sur GitHub

Classement des organisations IA

Classement des organisations IA populaires sur GitHub

Catégories Open Source populaires

Deepseek

Projets Open Source Deepseek populaires sur GitHub

TTS

Projets Open Source TTS populaires sur GitHub

LLM

Projets Open Source LLM populaires sur GitHub

ChatGPT

Projets Open Source ChatGPT populaires sur GitHub

Bibliothèque de projets Open Source IA

Aperçu

Aperçu des projets Open Source IA populaires sur GitHub

Bibliothèque de produits Navigation de l'outil

Optimiseur "Bouddhiste" C-AdamW : une seule ligne de code pour accélérer l'entraînement des grands modèles de 1,47 !

AIbase基地

Publié leActualités IA · 6 minutes de lecture · Nov 27, 2024

224

Dans le monde de l'IA, la formule « plus on en fait, mieux c'est » semble être une règle d'or. Plus le modèle est grand, plus les données sont nombreuses, plus la puissance de calcul est importante, plus on se rapproche apparemment du Graal de l'intelligence. Cependant, derrière cette progression fulgurante se cachent des coûts et une consommation énergétique considérables.

Pour rendre l'entraînement de l'IA plus efficace, les scientifiques sont constamment à la recherche d'optimiseurs plus puissants, comme un entraîneur qui guide les paramètres du modèle vers une optimisation continue afin d'atteindre un état optimal. AdamW, l'optimiseur par défaut du pré-entraînement Transformer, est depuis des années une référence dans le secteur. Cependant, face à la taille de plus en plus importante des modèles, AdamW commence à montrer ses limites.

N'existe-t-il pas une méthode permettant d'améliorer la vitesse d'entraînement tout en réduisant la consommation énergétique ? Pas de panique, une équipe entièrement chinoise arrive avec son « arme secrète » : C-AdamW !

C-AdamW, acronyme de Cautious AdamW, signifie « AdamW prudent » en français. Cela sonne-t-il « zen » ? En effet, l'idée principale de C-AdamW est de « bien réfléchir avant d'agir ».

Imaginez que les paramètres du modèle sont comme un groupe d'enfants pleins d'énergie qui veulent courir partout. AdamW est comme un professeur dévoué qui essaie de les guider dans la bonne direction. Mais parfois, les enfants sont trop excités, se trompent de chemin et perdent du temps et de l'énergie.

Dans ce cas, C-AdamW est comme un sage qui possède un « œil perçant » et peut identifier précisément si la direction de la mise à jour est correcte. Si la direction est mauvaise, C-AdamW s'arrête immédiatement pour éviter que le modèle ne s'égare.

Cette stratégie « prudente » garantit que chaque mise à jour réduit efficacement la fonction de perte, accélérant ainsi la vitesse de convergence du modèle. Les résultats expérimentaux montrent que C-AdamW a augmenté la vitesse d'entraînement de 1,47 fois dans le pré-entraînement Llama et MAE !

Plus important encore, C-AdamW n'a pratiquement pas de frais de calcul supplémentaires et ne nécessite qu'une simple modification d'une ligne de code existant. Cela signifie que les développeurs peuvent facilement appliquer C-AdamW à divers entraînements de modèles et profiter de la « vitesse et de l'excitation » !

L'aspect « zen » de C-AdamW réside également dans le fait qu'il conserve la fonction hamiltonienne d'Adam et, grâce à l'analyse de Lyapunov, ne compromet pas la garantie de convergence. Cela signifie que C-AdamW est non seulement plus rapide, mais aussi plus stable, évitant ainsi les problèmes d'échec de l'entraînement.

Bien sûr, « zen » ne signifie pas « inerte ». L'équipe de recherche a déclaré qu'elle continuerait à explorer des fonctions ϕ plus riches et à appliquer des masques dans l'espace des caractéristiques plutôt que dans l'espace des paramètres afin d'améliorer encore les performances de C-AdamW.

On peut prévoir que C-AdamW deviendra le chouchou du domaine de l'apprentissage profond et révolutionnera l'entraînement des grands modèles !

Adresse de l'article : https://arxiv.org/abs/2411.16085

GitHub :

https://github.com/kyleliang919/C-Optim

Nouveaux termes IA Optimiseur AdamW C-AdamW

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

Moonshot lance Muon, un nouvel optimiseur améliorant considérablement l'efficacité du calcul

Le domaine de l'intelligence artificielle est récemment en effervescence : Moonshot (月之暗面) a annoncé la publication en open source de son nouvel optimiseur Muon, réussissant à doubler l'efficacité du calcul par rapport à l'AdamW traditionnel. Le lancement de ce nouvel optimiseur survient alors que DeepSeek s'apprête à publier en open source plusieurs bibliothèques de code, suscitant un intérêt et des discussions importants au sein du secteur. L'optimiseur Muon, initialement proposé par les chercheurs d'OpenAI Keller Jordan et al. en 2024, se montre particulièrement performant pour l'entraînement de modèles de petite taille.

Feb 24, 2025

Nous Research lance DisTrO, un optimiseur permettant d'entraîner des modèles d'IA même sur des réseaux ordinaires

L'équipe de Nous Research a publié un nouvel optimiseur appelé DisTrO, conçu pour réduire les besoins en transmission d'informations lors de l'entraînement distribué sur Internet, améliorant ainsi considérablement l'efficacité de l'entraînement des modèles d'IA. DisTrO permet l'entraînement sur des réseaux ordinaires, permettant aux particuliers et aux institutions du monde entier de participer au développement de l'IA via leurs propres ordinateurs, brisant ainsi le monopole des grandes entreprises sur l'entraînement de l'IA. Comparé à l'algorithme traditionnel All-Reduce, DisTrO est jusqu'à 857 fois plus efficace à chaque étape d'entraînement.

Sep 11, 2024

2.2k

Claude 3 lance une fonctionnalité expérimentale : un optimiseur d'invites

Fonctionnalité expérimentale : Claude 3 introduit un optimiseur d'invites pour des instructions efficaces. Instructions : Utilisation via colab, nécessite l'API Claude. Aide aux méta-invites : Permet de générer des invites de haute qualité pour diverses tâches. Méthode : Exécutez le code dans le Google Colab des méta-invites pour construire vos invites.

Mar 12, 2024

530

DeepMind lance OPRO, une technologie utilisant les LLM comme optimiseurs

OPRO est une technologie puissante développée par Google DeepMind qui utilise les grands modèles de langage (LLM) comme optimiseurs. Cette technologie permet de guider les LLM dans la génération et l'amélioration de solutions à partir de descriptions de problèmes en langage naturel. Des recherches ont démontré l'efficacité d'OPRO pour résoudre des problèmes d'optimisation mathématique, notamment son potentiel avec des modèles de langage de grande taille tels que ChatGPT et PaLM.

Nov 21, 2023

480

Réduction de moitié des besoins en mémoire vive pour l'affinement de LLaMA grâce à un optimiseur 4 bits de Tsinghua

L'entraînement et l'affinement des grands modèles nécessitent beaucoup de mémoire vive. L'université Tsinghua a proposé un optimiseur 4 bits pour l'entraînement des réseaux neuronaux. Cet optimiseur 4 bits permet de réduire les coûts de mémoire de l'entraînement du modèle. Il réduit les besoins en mémoire vive jusqu'à 57 % sans perte de précision. L'optimiseur peut remplacer les optimiseurs existants et prend en charge les versions basse précision d'Adam et de SGD.

Sep 8, 2023

640