Nesta era de explosão de informações, a inteligência artificial brilha como estrelas no céu da inteligência humana. Entre essas estrelas, a arquitetura Transformer é sem dúvida a mais brilhante, liderando uma nova era no processamento de linguagem natural com seu mecanismo de autoatenção.
No entanto, mesmo as estrelas mais brilhantes têm seus cantos inacessíveis. Para modelos Transformer com contexto longo, o alto consumo de recursos do cálculo de autoatenção se tornou um desafio. Imagine tentar fazer com que a IA compreenda um artigo de dezenas de milhares de palavras; comparar cada palavra com todas as outras palavras do artigo resultaria em uma quantidade enorme de cálculos.
Para resolver esse problema, um grupo de cientistas da Zyphra e EleutherAI propôs um novo método chamado Tree Attention.
A autoatenção, como o núcleo dos modelos Transformer, tem sua complexidade computacional aumentando quadraticamente com o comprimento da sequência. Isso se torna um obstáculo intransponível ao processar textos longos, especialmente para modelos de linguagem grandes (LLMs).
O surgimento da Tree Attention é como plantar árvores de cálculo eficiente nesta floresta computacional. Através de uma abordagem de redução em árvore, ele decompõe o cálculo de autoatenção em várias tarefas paralelas, cada tarefa sendo como uma folha na árvore, juntas formando uma árvore completa.
Ainda mais impressionante é que os proponentes da Tree Attention também derivaram a função de energia da autoatenção, o que não apenas fornece uma interpretação bayesiana da autoatenção, mas também a conecta intimamente a modelos de energia como a rede Hopfield.
A Tree Attention também considera a topologia de rede de clusters modernos de GPUs, utilizando inteligentemente conexões de alta largura de banda dentro do cluster para reduzir a necessidade de comunicação entre nós, aumentando assim a eficiência computacional.
Os cientistas validaram o desempenho da Tree Attention em diferentes comprimentos de sequência e números de GPUs através de uma série de experimentos. Os resultados mostram que a Tree Attention é até 8 vezes mais rápida que o método Ring Attention existente na decodificação em várias GPUs, reduzindo significativamente o tráfego de comunicação e o uso de memória de pico.
A proposta da Tree Attention não apenas fornece uma solução eficiente para o cálculo de modelos de atenção de contexto longo, mas também oferece uma nova perspectiva para entender os mecanismos internos dos modelos Transformer. Com o contínuo avanço da tecnologia de IA, temos razões para acreditar que a Tree Attention desempenhará um papel importante na pesquisa e aplicação de IA no futuro.
Endereço do artigo: https://mp.weixin.qq.com/s/U9FaE6d-HJGsUs7u9EKKuQ