Patchscope
Marco unificado para la inspección de representaciones ocultas de modelos de lenguaje
Producto ComúnProgramaciónModelos de lenguajeExplicabilidad
Patchscope es un marco unificado para inspeccionar las representaciones ocultas de los grandes modelos de lenguaje (LLM). Permite explicar el comportamiento del modelo y verificar su alineación con los valores humanos. Proponemos utilizar el propio modelo para explicar sus representaciones internas del lenguaje natural, aprovechando su capacidad para generar texto comprensible para humanos. Demostramos cómo el marco Patchscope se puede utilizar para responder a una amplia gama de preguntas de investigación sobre los cálculos de los LLM. Encontramos que los métodos de explicabilidad previos basados en la proyección de representaciones en espacios léxicos y la intervención en los cálculos de los LLM pueden verse como casos especiales de este marco. Además, Patchscope abre nuevas posibilidades, como el uso de modelos más potentes para explicar las representaciones de modelos más pequeños, y desbloquea nuevas aplicaciones como la autocorrección, incluyendo el razonamiento de múltiples saltos.
Patchscope Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44