Recentemente, os modelos de linguagem grandes (LLMs) têm se desenvolvido rapidamente, e os modelos Transformer têm sido fundamentais nesse avanço. O núcleo dos Transformers é o mecanismo de atenção, que funciona como um filtro de informações, permitindo que o modelo se concentre nas partes mais importantes de uma frase. Mas mesmo os poderosos Transformers podem ser perturbados por informações irrelevantes, como se você estivesse procurando um livro em uma biblioteca e fosse inundado por uma pilha de livros sem relação com sua busca, tornando o processo ineficiente.

Essas informações irrelevantes geradas pelo mecanismo de atenção são chamadas de ruído de atenção em artigos científicos. Imagine tentar encontrar uma informação crucial em um documento, mas a atenção do modelo Transformer se dispersa em vários locais irrelevantes, como se fosse uma pessoa míope, incapaz de focar nos detalhes importantes.

image.png

Para solucionar esse problema, este artigo apresenta o Differential Transformer (DIFF Transformer). O nome soa sofisticado, mas o princípio é simples, como um fone de ouvido com cancelamento de ruído, que elimina o ruído por meio da diferença entre dois sinais.

O cerne do Differential Transformer é o mecanismo de atenção diferencial. Ele divide os vetores de consulta e chave em dois grupos, calcula dois mapas de atenção separadamente e, em seguida, subtrai um do outro para obter a pontuação de atenção final. Esse processo é semelhante a tirar duas fotos do mesmo objeto com duas câmeras e, em seguida, sobrepor as imagens, destacando as diferenças.

image.png

Dessa forma, o Differential Transformer consegue eliminar eficazmente o ruído de atenção, permitindo que o modelo se concentre nas informações-chave. É como usar um fone de ouvido com cancelamento de ruído: o ruído ambiente desaparece e você consegue ouvir o som desejado com mais clareza.

O artigo apresenta uma série de experimentos que demonstram a superioridade do Differential Transformer. Primeiro, ele se destaca no modelagem de linguagem, atingindo resultados semelhantes com apenas 65% do tamanho do modelo ou dos dados de treinamento de um Transformer.

image.png

Em segundo lugar, o Differential Transformer também supera os outros em modelagem de textos longos, utilizando eficazmente informações contextuais mais extensas.

Mais importante ainda, o Differential Transformer apresenta vantagens significativas na recuperação de informações-chave, na redução de alucinações do modelo e no aprendizado de contexto.

image.png

Na recuperação de informações-chave, o Differential Transformer funciona como um mecanismo de busca preciso, capaz de encontrar o conteúdo desejado em um grande volume de informações, mantendo alta precisão mesmo em cenários complexos.

Na redução de alucinações do modelo, o Differential Transformer evita eficazmente que o modelo "inventem fatos", gerando resumos de texto e respostas a perguntas mais precisos e confiáveis.

No aprendizado de contexto, o Differential Transformer se assemelha a um aluno brilhante, capaz de aprender novos conhecimentos rapidamente a partir de poucos exemplos, com resultados mais estáveis, ao contrário dos Transformers, que são facilmente influenciados pela ordem dos exemplos.

Além disso, o Differential Transformer reduz eficazmente os valores discrepantes nos valores de ativação do modelo, o que significa que ele é mais amigável à quantização do modelo, permitindo quantização de menor bit e, consequentemente, maior eficiência.

Em resumo, o Differential Transformer resolve eficazmente o problema do ruído de atenção nos modelos Transformer por meio do mecanismo de atenção diferencial, obtendo melhorias significativas em vários aspectos. Ele oferece novas perspectivas para o desenvolvimento de modelos de linguagem grandes e desempenhará um papel importante em diversas áreas no futuro.

Link do artigo: https://arxiv.org/pdf/2410.05258