Dans le monde de l'intelligence artificielle, les modèles linguistiques ressemblent à des boîtes noires insondables : nous y injectons du texte, et ils en restituent le sens. Mais que se passe-t-il réellement ? La dernière recherche de Google DeepMind, Gemma Scope, nous offre un aperçu de l'intérieur de cette boîte noire.
L'activation des modèles linguistiques est généralement considérée comme une combinaison linéaire et clairsemée de vecteurs, mais la signification réelle de ces combinaisons reste insaisissable. Pour résoudre ce problème, les autoencodeurs clairsemés (SAEs) sont considérés comme une méthode d'apprentissage non supervisée prometteuse. Cependant, cette technologie en est encore à ses débuts, son coût de formation est élevé et les progrès de la recherche sont lents.
L'équipe Google DeepMind a entraîné et publié Gemma Scope, un autoencodeur clairsemé entraîné sur le modèle Gemma2. Il décompose et reconstruit l'activation du modèle linguistique à l'aide d'un encodeur et d'un décodeur, afin de révéler les caractéristiques significatives.
Gemma Scope utilise un SAE JumpReLU innovant, qui contrôle l'activation via une fonction de Heaviside décalée comme mécanisme de contrôle, permettant ainsi de contrôler efficacement le nombre de caractéristiques latentes du modèle. Cette conception optimise non seulement la perte de reconstruction, mais régularise également directement le nombre de caractéristiques latentes actives.
Gemma Scope a été soigneusement entraîné sur l'activation du modèle Gemma2. Pendant l'entraînement, les vecteurs d'activation du modèle ont été normalisés, et les SAEs ont été entraînés à différents niveaux et positions, y compris la sortie de la tête d'attention, la sortie MLP et le flux résiduel post-MLP.
Les performances de Gemma Scope ont été évaluées sous plusieurs angles. Les résultats expérimentaux montrent que la perte Delta des SAEs de flux résiduels est généralement plus élevée, et que la longueur de la séquence a un impact significatif sur les performances des SAEs. De plus, les performances varient selon les sous-ensembles de données, Gemma Scope obtenant les meilleurs résultats sur DeepMind mathematics.
La publication de Gemma Scope offre la possibilité de résoudre une série de problèmes ouverts. Il peut non seulement nous aider à mieux comprendre les SAEs, mais aussi améliorer les performances des tâches réelles, voire réaliser des tests d'intrusion sur les SAEs afin de déterminer s'ils ont réellement trouvé les concepts « réels » du modèle.
Avec l'application de Gemma Scope, nous pourrons faire un pas important en matière d'explicabilité et de sécurité de l'IA. Il nous aidera à mieux comprendre les mécanismes internes des modèles linguistiques, améliorant ainsi la transparence et la fiabilité des modèles.
Adresse de l'article : https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf
Expérience en ligne : https://www.neuronpedia.org/gemma-scope#main