No mundo da IA, as mudanças costumam chegar de surpresa. Recentemente, uma nova arquitetura chamada TTT surgiu, proposta por pesquisadores da Stanford, UCSD, UC Berkeley e Meta, revolucionando os modelos de linguagem e superando os Transformers e Mambas.

TTT, ou Test-Time-Training layers, é uma arquitetura inovadora que substitui o mecanismo de atenção tradicional, comprimindo o contexto por meio de descida de gradiente. Esse método não apenas aumenta a eficiência, mas também permite arquiteturas de complexidade linear com memória expressiva, possibilitando o treinamento de LLMs com milhões ou bilhões de tokens em contexto.

1.jpg

A criação das camadas TTT se baseia em uma profunda compreensão das arquiteturas RNN e Transformer existentes. Embora eficientes, as RNNs têm capacidade expressiva limitada; enquanto os Transformers, apesar de sua alta capacidade expressiva, têm um custo computacional que cresce linearmente com o comprimento do contexto. As camadas TTT combinam inteligentemente os pontos fortes de ambas, mantendo a complexidade linear e aumentando a capacidade expressiva.

Em experimentos, as variantes TTT-Linear e TTT-MLP demonstraram desempenho excepcional, superando os Transformers e Mambas em contextos curtos e longos. A vantagem das camadas TTT é ainda mais evidente em contextos longos, abrindo um enorme potencial para aplicações como modelagem de vídeos longos.

2.jpg

As camadas TTT não são apenas inovadoras em teoria, mas também demonstram grande potencial em aplicações práticas. No futuro, espera-se que sejam usadas na modelagem de vídeos longos, fornecendo informações mais ricas por meio de amostragem densa de quadros – uma tarefa pesada para Transformers, mas facilmente gerenciada pelas camadas TTT.

Esta pesquisa é o resultado de cinco anos de trabalho árduo da equipe, iniciada durante o pós-doutorado do Dr. Yu Sun. Sua persistência na exploração e experimentação levou a essa conquista inovadora. O sucesso das camadas TTT é o resultado do esforço incansável e do espírito inovador da equipe.

O surgimento das camadas TTT trouxe nova vitalidade e possibilidades para o campo da IA. Mudou nossa compreensão dos modelos de linguagem e abriu novos caminhos para aplicações futuras de IA. Aguardamos ansiosamente as aplicações e o desenvolvimento futuro das camadas TTT, testemunhando o progresso e as inovações da tecnologia de IA.

Endereço do artigo: https://arxiv.org/abs/2407.04620