人工知能の世界では、言語モデルは深遠なブラックボックスのようなものです。私たちは文字を入力し、意味が出力されますが、その過程で何が起こっているのかは謎でした。Google DeepMindの最新研究であるGemma Scopeは、このブラックボックスの一端を明らかにします。
言語モデルの活性化は、通常、ベクトルの疎な線形結合として見なされますが、これらの結合の背後にある真の意味はつかみどころがありません。この問題を解決するために、教師なし学習手法であるスパースオートエンコーダ(SAEs)に大きな期待が寄せられています。しかし、この技術はまだ発展途上であり、訓練コストが高く、研究の進展は遅れています。
Google DeepMindチームは、Gemma2モデルで訓練されたスパースオートエンコーダであるGemma Scopeを開発し、公開しました。これは、エンコーダとデコーダを使用して言語モデルの活性化を分解および再構成することで、意味のある特徴を明らかにすることを目指しています。
Gemma Scopeは、革新的なJumpReLU SAEsを採用しています。これは、シフトされたヘヴィサイドステップ関数を使用することで活性化を制御し、モデルの潜在的な特徴の数を効果的に制御するゲート制御機構です。この設計は、再構成損失の最適化だけでなく、活性化された潜在特徴の数への直接的な正則化にもつながります。
Gemma2モデルの活性化を用いて、Gemma Scopeは慎重に訓練されました。訓練過程では、モデルの活性化ベクトルは正規化され、SAEsは注意ヘッド出力、MLP出力、およびMLP後の残差流など、異なる層や位置で訓練されました。
Gemma Scopeの性能は、複数の角度から評価されました。実験結果によると、残差流SAEsのデルタ損失は通常高く、シーケンス長はSAEの性能に大きな影響を与えます。さらに、異なるデータセットサブセットでの性能も異なり、Gemma ScopeはDeepMind mathematicsで最高の性能を示しました。
Gemma Scopeの公開は、いくつかの未解決問題の解決に可能性を提供します。SAEsのより深い理解を助けるだけでなく、実際的なタスクの性能向上、さらにはSAEsに対するレッドチームテストを行い、モデルの中で「真の」概念を本当に見つけているかどうかを確認することもできます。
Gemma Scopeの応用により、AIの説明可能性と安全性において重要な一歩を踏み出せることが期待されます。これは、言語モデルの内部動作機構のより良い理解、モデルの透明性と信頼性の向上に役立ちます。
論文アドレス:https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf