Les grands modèles linguistiques (LLM) ont connu un développement fulgurant récemment, et les modèles Transformer y ont joué un rôle essentiel. Le cœur des Transformer est le mécanisme d'attention, qui agit comme un filtre d'information, permettant au modèle de se concentrer sur les parties les plus importantes d'une phrase. Cependant, même les puissants Transformer peuvent être perturbés par des informations non pertinentes, comme si vous cherchiez un livre à la bibliothèque et que vous étiez submergé par une pile de livres inutiles, ce qui réduit considérablement l'efficacité.
Ces informations non pertinentes générées par le mécanisme d'attention sont appelées « bruit d'attention » dans la littérature scientifique. Imaginez que vous essayez de trouver une information clé dans un document, mais que l'attention du modèle Transformer se disperse sur des éléments non pertinents, comme une personne myope qui ne voit pas clairement l'essentiel.
Pour résoudre ce problème, cet article propose le Differential Transformer (DIFF Transformer). Ce nom semble sophistiqué, mais le principe est simple : il fonctionne comme un casque antibruit, en utilisant la différence entre deux signaux pour éliminer le bruit.
Le cœur du Differential Transformer est le mécanisme d'attention différentielle. Il divise les vecteurs de requête et de clé en deux groupes, calcule deux cartes d'attention séparément, puis soustrait ces deux cartes pour obtenir le score d'attention final. Ce processus est comparable à la prise de deux photos du même objet avec deux appareils photo, puis à la superposition des deux images pour faire ressortir les différences.
De cette manière, le Differential Transformer peut efficacement éliminer le bruit d'attention, permettant au modèle de se concentrer sur les informations clés. C'est comme si vous mettiez un casque antibruit : les bruits environnants disparaissent et vous entendez plus clairement le son souhaité.
L'article présente une série d'expériences qui démontrent la supériorité du Differential Transformer. Premièrement, il excelle dans la modélisation linguistique, atteignant des performances similaires à celles d'un Transformer avec seulement 65 % de sa taille ou de ses données d'entraînement.
Deuxièmement, le Differential Transformer surpasse également les autres modèles dans la modélisation de longs textes, capable d'utiliser efficacement des informations contextuelles plus longues.
Plus important encore, le Differential Transformer présente des avantages significatifs en matière de recherche d'informations clés, de réduction des hallucinations du modèle et d'apprentissage contextuel.
Pour la recherche d'informations clés, le Differential Transformer est comme un moteur de recherche précis, capable de trouver exactement ce que vous cherchez dans une quantité massive d'informations, même dans des scénarios extrêmement complexes, tout en maintenant une grande précision.
Pour réduire les hallucinations du modèle, le Differential Transformer évite efficacement que le modèle « hallucine », générant des résumés de texte et des réponses aux questions plus précis et fiables.
En matière d'apprentissage contextuel, le Differential Transformer est plus comme un étudiant brillant, capable d'apprendre rapidement de nouveaux concepts à partir d'un petit nombre d'exemples, avec des résultats d'apprentissage plus stables que les Transformer, moins sensibles à l'ordre des exemples.
De plus, le Differential Transformer réduit efficacement les valeurs aberrantes dans les valeurs d'activation du modèle, ce qui signifie qu'il est plus convivial pour la quantification du modèle et permet une quantification à plus faible nombre de bits, améliorant ainsi l'efficacité du modèle.
En résumé, le Differential Transformer résout efficacement le problème du bruit d'attention des modèles Transformer grâce à son mécanisme d'attention différentielle, et apporte des améliorations significatives à plusieurs niveaux. Il offre une nouvelle approche pour le développement des grands modèles linguistiques et jouera un rôle important dans de nombreux domaines à l'avenir.
Adresse de l'article : https://arxiv.org/pdf/2410.05258