Patchscope

Marco unificado para la inspección de representaciones ocultas de modelos de lenguaje

Producto ComúnProgramaciónModelos de lenguajeExplicabilidad
Patchscope es un marco unificado para inspeccionar las representaciones ocultas de los grandes modelos de lenguaje (LLM). Permite explicar el comportamiento del modelo y verificar su alineación con los valores humanos. Proponemos utilizar el propio modelo para explicar sus representaciones internas del lenguaje natural, aprovechando su capacidad para generar texto comprensible para humanos. Demostramos cómo el marco Patchscope se puede utilizar para responder a una amplia gama de preguntas de investigación sobre los cálculos de los LLM. Encontramos que los métodos de explicabilidad previos basados en la proyección de representaciones en espacios léxicos y la intervención en los cálculos de los LLM pueden verse como casos especiales de este marco. Además, Patchscope abre nuevas posibilidades, como el uso de modelos más potentes para explicar las representaciones de modelos más pequeños, y desbloquea nuevas aplicaciones como la autocorrección, incluyendo el razonamiento de múltiples saltos.
Abrir sitio web

Patchscope Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

Patchscope Tendencia de visitas

Patchscope Distribución geográfica de las visitas

Patchscope Fuentes de tráfico

Patchscope Alternativas