Actualités IA

Ne manquez aucun moment de l'innovation mondiale en IA

IA Quotidien

Tendances quotidiennes de l'industrie de l'IA en trois minutes

Chronologie de l'IA

Jalons de l'industrie de l'IA

Guide de monétisation de l'IA

Derniers cas

Partage de cas de monétisation de l'IA

Collection d'images

Cas de monétisation de la création d'images par l'IA

Collection de vidéos

Cas de monétisation de la création de vidéos par l'IA

Collection audio

Cas de monétisation de la création audio par l'IA

Collection de contenu

Cas de monétisation de la rédaction de contenu par l'IA

Tutoriels IA

Derniers tutoriels

Partage gratuit des derniers tutoriels IA

Classements des produits IA

Classement des produits IA

Affiche le classement du nombre total de visites des sites web d'IA

Classement de la croissance du trafic IA

Suit les sites web d'IA à la croissance la plus rapide en termes de trafic

Classement de la baisse du trafic IA

Se concentre sur les sites web d'IA avec des baisses de trafic importantes

Classement hebdomadaire de l'IA

Affiche le classement hebdomadaire des visites des sites web d'IA

Classements des pays populaires

États-Unis

Sites web d'IA les plus populaires auprès des utilisateurs américains

Chine

Sites web d'IA les plus populaires auprès des utilisateurs chinois

Inde

Sites web d'IA les plus populaires auprès des utilisateurs indiens

Brésil

Sites web d'IA les plus populaires auprès des utilisateurs brésiliens

Classements des catégories populaires

Génération d'images

Classement du nombre total de visites des sites web de génération d'images par l'IA

Assistant personnel

Classement du nombre total de visites des sites web d'assistants personnels d'IA

Génération de personnages

Classement du nombre total de visites des sites web de génération de personnages par l'IA

Génération de vidéos

Classement du nombre total de visites des sites web de génération de vidéos par l'IA

Classements des données Open Source populaires

Classement des projets IA

Projets IA populaires sur GitHub par nombre total d'étoiles

Classement de la croissance des projets IA

Projets IA populaires sur GitHub par taux de croissance

Classement des développeurs IA

Classement des développeurs IA populaires sur GitHub

Classement des organisations IA

Classement des organisations IA populaires sur GitHub

Catégories Open Source populaires

Deepseek

Projets Open Source Deepseek populaires sur GitHub

TTS

Projets Open Source TTS populaires sur GitHub

LLM

Projets Open Source LLM populaires sur GitHub

ChatGPT

Projets Open Source ChatGPT populaires sur GitHub

Bibliothèque de projets Open Source IA

Aperçu

Aperçu des projets Open Source IA populaires sur GitHub

Bibliothèque de produits Navigation de l'outil

Les chercheurs en IA de Nvidia présentent la technologie de fusion FFN : Accélération de l'inférence des grands modèles linguistiques

AIbase基地

Publié leActualités IA · 7 minutes de lecture · Mar 31, 2025

Les chercheurs de Nvidia, géant des puces d'intelligence artificielle, ont récemment publié une technique d'optimisation architecturale innovante appelée « FFN Fusion ». Cette technique vise à résoudre les goulots d'étranglement de calculs séquentiels inhérents à l'architecture Transformer, améliorant ainsi considérablement l'efficacité de l'inférence des grands modèles de langage (LLM) et ouvrant la voie à un déploiement plus large d'applications IA hautes performances.

Ces dernières années, les grands modèles de langage ont démontré de puissantes capacités dans les domaines du traitement du langage naturel, de la recherche scientifique et des agents conversationnels. Cependant, avec l'augmentation constante de la taille et de la complexité des modèles, les ressources de calcul nécessaires à leur processus d'inférence ont également considérablement augmenté, entraînant des goulots d'étranglement d'efficacité. L'architecture Transformer est à la base des LLM, et son mécanisme d'attention alterné et ses couches de réseaux de transmission en avant (FFN) nécessitent un traitement séquentiel des entrées. Cette structure séquentielle inhérente, lorsque la taille du modèle augmente, augmente considérablement les coûts de calcul et de communication entre les GPU, réduisant l'efficacité et augmentant les coûts de déploiement. Ce problème est particulièrement marqué dans les scénarios nécessitant une génération rapide de plusieurs jetons (comme les assistants IA en temps réel).

Pour relever ce défi, les chercheurs de Nvidia ont proposé la technique FFN Fusion. L'idée centrale de cette méthode consiste à fusionner les couches FFN consécutives et faiblement dépendantes en un FFN plus large. Les chercheurs ont observé qu'après la suppression des couches d'attention, il existe généralement de longues séquences de FFN consécutives dans les LLM. En analysant ces séquences, ils ont constaté que la dépendance entre ces couches FFN était faible, et qu'elles pouvaient donc être exécutées en parallèle.

Les bases mathématiques de FFN Fusion reposent sur la concaténation des poids de plusieurs FFN en série pour créer un seul module équivalent calculable en parallèle. Par exemple, si trois FFN sont empilés séquentiellement, la sortie de chaque FFN servant d'entrée au suivant, FFN Fusion supprime cette dépendance, permettant aux trois FFN de traiter simultanément la même entrée et d'agréger leurs sorties. L'analyse théorique montre que le FFN fusionné conserve la même capacité de représentation que le FFN d'origine.

Ultra-253B-Base : double amélioration des performances et de l'efficacité

Les chercheurs de Nvidia ont appliqué la technique FFN Fusion au modèle Llama-3.1-405B-Instruct de Meta, créant un nouveau modèle appelé Ultra-253B-Base par élagage et reconstruction. Les résultats expérimentaux montrent que Ultra-253B-Base a considérablement amélioré la vitesse d'inférence et l'efficacité des ressources. Plus précisément, ce modèle a permis de réduire le délai d'inférence de 1,71 fois et le coût de calcul par jeton de 35 fois pour une taille de lot de 32.

Plus impressionnant encore, cette amélioration de l'efficacité ne s'est pas faite au détriment des capacités du modèle. Ultra-253B-Base a obtenu d'excellents résultats sur plusieurs benchmarks d'évaluation reconnus, tels que : MMLU 85,17 %, MMLU-Pro 72,25 %, HumanEval 86,58 %, Arena Hard 84,92 %, MT-Bench 9,19. Ces résultats sont généralement comparables, voire supérieurs, à ceux du modèle d'origine à 405 milliards de paramètres, alors qu'Ultra-253B-Base ne contient que 253 milliards de paramètres. De plus, la consommation mémoire du modèle a été réduite de moitié, grâce à l'optimisation du kv-cache.

Les chercheurs ont utilisé la distance cosinus pour analyser les sorties entre les couches FFN afin d'identifier les zones à faible interdépendance, qui sont les meilleures candidates à la fusion. La technique FFN Fusion a été validée sur des modèles de différentes tailles (y compris 49 milliards, 700 milliards et 253 milliards de paramètres), démontrant sa bonne généralisation.

Cette étude montre que, grâce à une analyse approfondie et à une conception architecturale astucieuse, il est possible d'améliorer considérablement l'efficacité des LLM. FFN Fusion jette les bases de la conception de LLM plus parallélisés et mieux adaptés au matériel. Bien que la parallélisation des modules Transformer complets soit confrontée à des défis plus importants en raison d'une dépendance inter-couches plus forte, le succès de FFN Fusion indique sans aucun doute une voie importante pour l'optimisation de l'efficacité des futurs LLM.

Article : https://arxiv.org/abs/2503.18908

FFNfusion ArchitectureTransformer Grandmodèlelinguistique(LLM)Anglais

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

Collaboration entre Tsinghua et Ant Group : BodyGen améliore les performances des robots de 60%

Mar 25, 2025

Les modèles vocaux Grok sont entièrement disponibles : 11 modèles lancés, avec sous-titres intégrés, un outil idéal pour apprendre l'anglais

Mar 5, 2025

CogView4 : Modèle d'IA open source pour la génération d'images à partir de texte, prenant en charge les invites en chinois et en anglais

Le dernier modèle d'IA open source de génération d'images à partir de texte de Zhihu AI, CogView4, vient d'être dévoilé. Avec 600 millions de paramètres, CogView4 prend entièrement en charge la saisie en chinois et la génération d'images à partir de texte chinois. Il est considéré comme le premier modèle open source capable de générer des caractères chinois dans les images. Le point fort principal de CogView4 est sa prise en charge des invites bilingues chinois-anglais. Il excelle particulièrement dans la compréhension et le respect des instructions complexes en chinois, devenant ainsi une aubaine pour les créateurs de contenu chinois. En tant que premier modèle open source de génération d'images à partir de texte capable de générer des caractères chinois dans les images, il comble une lacune importante dans le domaine de l'open source.

Mar 4, 2025

Duolingo lance une fonctionnalité IA pour aider les apprenants d'anglais à améliorer leurs performances

Feb 28, 2025

Lancement révolutionnaire d'Ideogram 2a, modèle de génération d'images à partir de texte : vitesse doublée, coût divisé par deux, mise en page anglaise rivalisant avec celle des professionnels

Le 27 février 2025, le service de génération d'images par intelligence artificielle Ideogram a bénéficié d'une mise à jour très attendue avec le lancement officiel de son nouveau modèle, Ideogram 2a. Selon les informations divulguées sur Twitter par l'utilisateur @sundyme, ce nouveau modèle a non seulement considérablement amélioré la vitesse de génération, mais a également réduit les coûts de moitié, consolidant ainsi la position de leader d'Ideogram dans le domaine de la génération d'images à partir de texte (Text-to-Image). @sundyme a exprimé son enthousiasme dans un tweet...

Feb 28, 2025

ElevenLabs lance Scribe, un modèle de transcription vocale révolutionnaire avec une précision record de 96,7 % en anglais

Feb 27, 2025

Un diplômé en littérature anglaise développe un outil d'IA pour décrypter facilement les bios Twitter

Dans le monde numérique d'aujourd'hui, l'utilisation de courts textes est au cœur des échanges en ligne. Cependant, ces textes manquent souvent de vocabulaire ou de contexte commun, ce qui pose de nombreux défis à l'intelligence artificielle (IA) pour leur analyse. Pour y remédier, Justin Miller, étudiant diplômé en littérature anglaise et data scientist à l'Université de Sydney, propose une nouvelle approche utilisant les grands modèles de langage (LLM) pour une compréhension et une analyse approfondies des courts textes. Les recherches de Miller se concentrent sur la manière de traiter un grand nombre de courts textes, tels que les profils sur les réseaux sociaux, ...

Jan 22, 2025

1.2k

Lancement révolutionnaire ! Sana, le modèle de génération d'images open source de NVIDIA, génère des images en 1 seconde et prend en charge le chinois, l'anglais et les emojis

NVIDIA a récemment publié en open source un modèle de génération d'images nommé Sana. Ce modèle ne compte que 60 millions de paramètres, ce qui réduit considérablement les exigences de fonctionnement. Sana peut générer des images d'une résolution de 4096 × 4096 et fonctionner sur une carte graphique de 16 Go, générant des images de haute qualité de 1024 × 1024 en moins d'une seconde, une vitesse remarquable pour les modèles de ce type. Sana utilise la technologie DC-AE (double auto-encodeur) et un espace latent 32 fois plus grand.

Jan 14, 2025

6.9k

Comment traduire AIGC et AGI en chinois ? Publication d'un tableau de correspondance chinois-anglais des termes liés à l'intelligence artificielle

Le ministère de l'Éducation a récemment annoncé que le Comité d'experts de la réunion conjointe interministérielle sur les normes de traduction chinoise des termes étrangers avait approuvé 18 groupes de traductions chinoises recommandées pour des termes étrangers, principalement dans les domaines de l'intelligence artificielle et des technologies de l'information. Cette initiative vise à normaliser les nouveaux termes fréquemment utilisés dans le domaine de l'IA, à fournir au public des explications officielles claires et à éliminer toute confusion.

Dec 11, 2024

2.2k

Lancement du modèle linguistique Teuken-7B : une percée au-delà de la domination anglaise, prenant en charge 24 langues officielles de l'UE

Teuken-7B, un modèle linguistique doté de 7 milliards de paramètres, est désormais disponible sur Hugging Face et prend en charge les 24 langues officielles de l'Union européenne. Développé dans le cadre du projet de recherche européen OpenGPT-X, ce modèle est disponible en open source. Contrairement à la plupart des modèles linguistiques d'IA centrés sur l'anglais, Teuken-7B a été construit à partir de zéro, environ la moitié des données d'entraînement provenant de langues européennes non anglaises. Note sur l'image : Image générée par IA, image sous licence

Nov 29, 2024

1.4k