Le modèle Mixture of Experts (MoE) à un million d'experts proposé par Google DeepMind représente une avancée révolutionnaire dans l'architecture Transformer.

Imaginez un modèle capable de rechercher de manière parcimonieuse parmi un million de mini-experts. Cela ressemble à de la science-fiction, n'est-ce pas ? Pourtant, c'est le résultat des dernières recherches de DeepMind. Au cœur de cette recherche se trouve un mécanisme de recherche d'experts efficace en termes de paramètres, qui utilise la technique des clés de produit pour dissocier le coût de calcul du nombre de paramètres, permettant ainsi de libérer le potentiel de l'architecture Transformer tout en maintenant l'efficacité du calcul.

image.png

Le point fort de ce travail réside non seulement dans l'exploration de configurations MoE extrêmes, mais aussi dans la première démonstration qu'apprendre des structures d'indexation permet d'acheminer efficacement vers plus d'un million d'experts. C'est comme trouver rapidement les quelques experts capables de résoudre un problème au sein d'une foule immense, le tout avec un coût de calcul maîtrisé.

Dans les expériences, l'architecture PEER a démontré des performances de calcul exceptionnelles, surpassant en efficacité les FFW denses, les MoE à granularité grossière et les couches de mémoire à clés de produit (PKM). Ce n'est pas seulement une victoire théorique, mais une avancée majeure dans les applications pratiques. Les résultats empiriques montrent la supériorité de PEER dans les tâches de modélisation linguistique, avec une perplexité plus faible. De plus, les expériences d'ablation montrent que les performances du modèle PEER s'améliorent significativement en ajustant le nombre d'experts et le nombre d'experts actifs.

L'auteur de cette recherche, Xu He (Owen), chercheur scientifique chez Google DeepMind, a réalisé une exploration en solitaire qui apporte de nouvelles perspectives au domaine de l'IA. Comme il l'a démontré, des méthodes personnalisées et intelligentes permettent d'améliorer considérablement le taux de conversion et la fidélisation des utilisateurs, ce qui est particulièrement important dans le domaine de l'AIGC.

Adresse de l'article : https://arxiv.org/abs/2407.04153