La technologie « Infini-attention » développée par Google vise à étendre les grands modèles linguistiques basés sur les Transformer pour traiter des entrées de longueur infinie. Elle utilise un mécanisme de compression de la mémoire pour gérer les entrées infiniment longues et obtient d'excellents résultats sur plusieurs tâches de longues séquences. Les méthodes techniques incluent un mécanisme de compression de la mémoire, la combinaison de l'attention locale et à long terme, et la capacité de traitement en flux continu. Les résultats expérimentaux montrent un avantage en termes de performances sur des tâches de modélisation linguistique de longs contextes, de recherche de blocs de contexte clés et de résumé de livres.