在人工智能的世界里,语言模型如同一个深不可测的黑箱,我们投入文字,它吐出意义。但在这个过程中,究竟发生了什么?Google DeepMind的最新研究——Gemma Scope,为我们揭开了这个黑箱的一角。

image.png

语言模型的激活通常被视为向量的稀疏、线性组合,但这些组合背后的真实意义却难以捉摸。为了解决这个问题,稀疏自编码器(SAEs)作为一种无监督学习方法,被寄予厚望。然而,这项技术仍在襁褓之中,训练成本高昂,研究进展缓慢。

Google DeepMind团队训练并发布了Gemma Scope,这是一套在Gemma2模型上训练的稀疏自编码器。它通过编码器和解码器对语言模型的激活进行分解和重构,以期揭示出那些有意义的特征。

Gemma Scope采用了一种创新的JumpReLU SAEs,它通过一个移位的Heaviside阶跃函数作为门控机制,控制激活,使模型的潜在特征数量得到有效控制。这种设计不仅优化了重建损失,还直接正则化了活跃的潜在特征数量。

image.png

在Gemma2模型的激活上,Gemma Scope经过了精心的训练。训练过程中,模型的激活向量被归一化,SAEs在不同的层和位置被训练,包括注意力头输出、MLP输出和后MLP残差流。

Gemma Scope的性能从多个角度进行了评估。实验结果显示,残差流SAEs的Delta损失通常更高,而序列长度对SAE性能有显著影响。此外,不同数据集子集的表现也不尽相同,Gemma Scope在DeepMind mathematics上表现最佳。

Gemma Scope的发布,为解决一系列开放问题提供了可能。它不仅可以帮助我们更深入地理解SAEs,还可以改进实际任务的性能,甚至对SAEs进行红队测试,以确定它们是否真正找到了模型中的“真实”概念。

随着Gemma Scope的应用,我们有望在AI的可解释性和安全性方面迈出重要一步。它将帮助我们更好地理解语言模型的内部工作机制,提高模型的透明度和可靠性。

论文地址:https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

在线体验:https://www.neuronpedia.org/gemma-scope#main