No mundo da inteligência artificial, os modelos de linguagem são como caixas pretas impenetráveis: inserimos texto e eles produzem significado. Mas o que acontece nesse processo? A pesquisa mais recente do Google DeepMind, o Gemma Scope, nos dá uma olhada dentro dessa caixa preta.
A ativação de modelos de linguagem geralmente é vista como uma combinação esparsa e linear de vetores, mas o significado real por trás dessas combinações é difícil de captar. Para resolver esse problema, os autoencoders esparsos (SAEs) são considerados uma abordagem promissora de aprendizado não supervisionado. No entanto, essa tecnologia ainda está em seus estágios iniciais, com altos custos de treinamento e progresso lento na pesquisa.
A equipe do Google DeepMind treinou e lançou o Gemma Scope, um conjunto de autoencoders esparsos treinados no modelo Gemma2. Ele decompõe e reconstrói a ativação do modelo de linguagem por meio de um codificador e um decodificador, a fim de revelar características significativas.
O Gemma Scope utiliza um inovador JumpReLU SAEs, que usa uma função de passo Heaviside deslocada como um mecanismo de controle, controlando a ativação e permitindo o controle eficaz do número de características latentes do modelo. Esse design não apenas otimiza a perda de reconstrução, mas também regulariza diretamente o número de características latentes ativas.
O Gemma Scope foi cuidadosamente treinado nas ativações do modelo Gemma2. Durante o treinamento, os vetores de ativação do modelo foram normalizados, e os SAEs foram treinados em diferentes camadas e posições, incluindo a saída da cabeça de atenção, a saída MLP e o fluxo residual pós-MLP.
O desempenho do Gemma Scope foi avaliado de vários ângulos. Os resultados experimentais mostram que a perda Delta dos SAEs de fluxo residual geralmente é maior, e o comprimento da sequência tem um impacto significativo no desempenho do SAE. Além disso, o desempenho varia entre diferentes subconjuntos de dados, com o Gemma Scope apresentando o melhor desempenho em DeepMind mathematics.
O lançamento do Gemma Scope oferece a possibilidade de resolver uma série de problemas em aberto. Ele não apenas pode nos ajudar a entender melhor os SAEs, mas também pode melhorar o desempenho em tarefas práticas e até mesmo realizar testes de equipe vermelha em SAEs para determinar se eles realmente encontraram conceitos "reais" no modelo.
Com a aplicação do Gemma Scope, esperamos dar um passo importante na explicabilidade e segurança da IA. Isso nos ajudará a entender melhor os mecanismos internos dos modelos de linguagem, aumentando a transparência e confiabilidade dos modelos.
Endereço do artigo: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf
Experiência online: https://www.neuronpedia.org/gemma-scope#main