Patchscope
Un cadre unifié pour l'inspection des représentations cachées des modèles linguistiques
Produit OrdinaireProgrammationModèles linguistiquesInterprétabilité
Patchscope est un cadre unifié permettant d'inspecter les représentations cachées des grands modèles linguistiques (LLM). Il permet d'expliquer le comportement des modèles et de vérifier leur cohérence avec les valeurs humaines. En exploitant la capacité des modèles à générer du texte compréhensible par l'humain, nous proposons d'utiliser les modèles eux-mêmes pour expliquer leurs représentations internes en langage naturel. Nous démontrons comment le cadre Patchscope peut être utilisé pour répondre à un large éventail de questions de recherche sur le calcul des LLM. Nous montrons que les méthodes d'explicabilité précédentes, basées sur la projection des représentations dans un espace lexical et l'intervention dans le calcul des LLM, peuvent être considérées comme des cas particuliers de ce cadre. De plus, Patchscope ouvre de nouvelles possibilités, telles que l'utilisation de modèles plus puissants pour expliquer les représentations de modèles plus petits, et permet de nouvelles applications comme l'autocorrection, par exemple dans le raisonnement à plusieurs étapes.
Patchscope Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44