Dans le monde de l'IA, les révolutions arrivent souvent inopinément. Récemment, une toute nouvelle architecture nommée TTT a fait son apparition. Proposée par des chercheurs de Stanford, de l'UCSD, de l'UC Berkeley et de Meta, elle a bouleversé du jour au lendemain les Transformer et les Mamba, révolutionnant les modèles linguistiques.
TTT, acronyme de Test-Time-Training layers (couches d'entraînement en temps de test), est une architecture novatrice qui, grâce à la compression du contexte par descente de gradient, remplace directement les mécanismes d'attention traditionnels. Cette méthode non seulement améliore l'efficacité, mais permet également des architectures à complexité linéaire dotées d'une mémoire expressive, nous permettant d'entraîner des LLM contenant des millions, voire des milliards de jetons dans le contexte.
La proposition des couches TTT repose sur une compréhension approfondie des architectures RNN et Transformer existantes. Les RNN, bien qu'efficaces, sont limités dans leur capacité expressive ; les Transformer, quant à eux, possèdent une forte capacité expressive, mais leur coût de calcul augmente linéairement avec la longueur du contexte. Les couches TTT combinent astucieusement les avantages des deux, conservant une complexité linéaire tout en améliorant la capacité expressive.
Lors des expériences, les deux variantes, TTT-Linear et TTT-MLP, ont démontré des performances exceptionnelles, surpassant les Transformer et les Mamba aussi bien sur les contextes courts que longs. L'avantage des couches TTT est particulièrement marqué dans le cas des contextes longs, ouvrant ainsi d'immenses possibilités pour des applications telles que la modélisation de longues vidéos.
La proposition des couches TTT est non seulement novatrice sur le plan théorique, mais présente également un potentiel énorme en termes d'applications pratiques. À l'avenir, les couches TTT pourraient être utilisées pour la modélisation de longues vidéos, en utilisant un échantillonnage dense d'images pour fournir des informations plus riches. Ceci représente une charge pour les Transformer, mais un atout pour les couches TTT.
Cette recherche est le fruit de cinq années de travail acharné de l'équipe, un projet qui a commencé pendant le post-doctorat du Dr Yu Sun. Grâce à leur persévérance et à leurs nombreuses tentatives, ils ont finalement réalisé cette avancée révolutionnaire. Le succès des couches TTT est le fruit de leur travail acharné et de leur esprit d'innovation.
L'arrivée des couches TTT apporte une nouvelle dynamique et de nouvelles possibilités au domaine de l'IA. Elle a non seulement changé notre perception des modèles linguistiques, mais ouvre également de nouvelles voies pour les applications futures de l'IA. Attendons avec impatience les applications et le développement futurs des couches TTT, et soyons témoins des progrès et des percées de la technologie de l'IA.
Adresse de l'article : https://arxiv.org/abs/2407.04620