Transformer Debuggerは、自動化された説明可能性とスパース自己符号化器技術を組み合わせることで、コード作成前の迅速な探索を可能にし、順伝播中に介入して特定の挙動への影響を観察できます。挙動に寄与する特定のコンポーネント(ニューロン、アテンションヘッド、自己符号化器の潜在表現)を特定し、これらのコンポーネントが強く活性化する理由を説明する自動生成の説明を示し、コンポーネント間の接続をトレースして回路を発見する支援を行います。