À l'ère de l'explosion de l'information, l'intelligence artificielle brille comme des étoiles, illuminant le ciel nocturne de l'intelligence humaine. Parmi ces étoiles, l'architecture Transformer est sans doute la plus brillante, guidant la nouvelle ère du traitement du langage naturel grâce à son mécanisme d'auto-attention.

Cependant, même les étoiles les plus brillantes ont des recoins inaccessibles. Pour les modèles Transformer à long contexte, la forte consommation de ressources du calcul d'auto-attention représente un défi. Imaginez que vous essayez de faire comprendre à une IA un article de plusieurs dizaines de milliers de mots : chaque mot doit être comparé à tous les autres mots de l'article, ce qui représente un calcul colossal.

Pour résoudre ce problème, une équipe de scientifiques de Zyphra et d'EleutherAI a proposé une nouvelle méthode appelée Tree Attention.

image.png

L'auto-attention, au cœur des modèles Transformer, a une complexité de calcul qui augmente quadratiquement avec la longueur de la séquence. Cela représente un obstacle insurmontable pour le traitement de longs textes, notamment pour les grands modèles de langage (LLM).

L'avènement de Tree Attention est comme planter des arbres à calcul efficace dans cette forêt de calculs. Grâce à une méthode de réduction arborescente, le calcul de l'auto-attention est décomposé en plusieurs tâches parallèles, chaque tâche étant comme une feuille sur un arbre, formant ensemble un arbre complet.

Plus étonnant encore, les créateurs de Tree Attention ont dérivé la fonction d'énergie de l'auto-attention. Cela fournit non seulement une explication bayésienne de l'auto-attention, mais la relie également étroitement à des modèles énergétiques tels que les réseaux de Hopfield.

Tree Attention prend également en compte la topologie du réseau des clusters GPU modernes. En utilisant intelligemment les connexions haut débit internes au cluster, elle réduit les besoins de communication inter-nœuds, améliorant ainsi l'efficacité du calcul.

Les scientifiques ont vérifié les performances de Tree Attention pour différentes longueurs de séquences et différents nombres de GPU par le biais d'une série d'expériences. Les résultats montrent que Tree Attention est jusqu'à 8 fois plus rapide que la méthode Ring Attention existante lors du décodage sur plusieurs GPU, tout en réduisant considérablement le volume de communication et l'utilisation de la mémoire maximale.

La proposition de Tree Attention fournit non seulement une solution efficace pour le calcul des modèles d'attention à long contexte, mais offre également un nouveau point de vue sur la compréhension des mécanismes internes des modèles Transformer. Avec les progrès constants de l'IA, nous avons toutes les raisons de croire que Tree Attention jouera un rôle important dans la recherche et les applications futures de l'IA.

Adresse de l'article : https://mp.weixin.qq.com/s/U9FaE6d-HJGsUs7u9EKKuQ