O modelo Mixture of Experts (MoE) de milhões de especialistas, proposto pelo Google DeepMind, representa um avanço revolucionário na arquitetura Transformer.

Imagine um modelo capaz de recuperar informações de forma esparsa entre um milhão de mini-especialistas. Parece ficção científica, não é? Mas este é o resultado da pesquisa mais recente do DeepMind. O cerne desta pesquisa é um mecanismo de recuperação de especialistas eficiente em termos de parâmetros, que utiliza a técnica de chaves de produto para separar o custo computacional da contagem de parâmetros, liberando assim o maior potencial da arquitetura Transformer enquanto mantém a eficiência computacional.

image.png

O destaque deste trabalho reside não apenas na exploração de configurações MoE extremas, mas também na primeira demonstração de que a aprendizagem de estruturas de indexação pode direcionar eficazmente mais de um milhão de especialistas. É como encontrar rapidamente, em meio a uma multidão, os poucos especialistas capazes de resolver um problema, tudo isso com custo computacional controlável.

Nos experimentos, a arquitetura PEER demonstrou desempenho computacional excepcional, sendo mais eficiente do que FFW denso, MoE de granularidade grosseira e camadas de memória de chave de produto (PKM). Não se trata apenas de uma vitória teórica, mas sim de um grande salto na aplicação prática. Os resultados empíricos mostram o desempenho superior do PEER em tarefas de modelagem de linguagem, com menor perplexidade e melhoria significativa do desempenho através do ajuste do número de especialistas e do número de especialistas ativos em experimentos de ablação.

O autor deste trabalho, Xu He (Owen), cientista pesquisador do Google DeepMind, com sua pesquisa individual, trouxe novas perspectivas para o campo da IA. Como ele demonstrou, por meio de métodos personalizados e inteligentes, podemos melhorar significativamente a taxa de conversão e a retenção de usuários, o que é particularmente importante no campo do AIGC.

Link do artigo: https://arxiv.org/abs/2407.04153