En el mundo de la inteligencia artificial, los modelos de lenguaje son como una caja negra impenetrable: introducimos texto y obtenemos significado. Pero, ¿qué sucede realmente en este proceso? La última investigación de Google DeepMind, Gemma Scope, nos permite echar un vistazo al interior de esta caja negra.
La activación de los modelos de lenguaje suele considerarse una combinación lineal y dispersa de vectores, pero el significado real detrás de estas combinaciones es difícil de comprender. Para abordar este problema, se han depositado grandes esperanzas en los autocodificadores dispersos (SAEs, por sus siglas en inglés) como método de aprendizaje no supervisado. Sin embargo, esta tecnología aún está en pañales, su entrenamiento es costoso y el progreso de la investigación es lento.
El equipo de Google DeepMind entrenó y publicó Gemma Scope, un conjunto de autocodificadores dispersos entrenados en el modelo Gemma2. Descompone y reconstruye la activación del modelo de lenguaje mediante un codificador y un decodificador, con el objetivo de revelar las características significativas.
Gemma Scope utiliza un innovador JumpReLU SAEs, que utiliza una función de paso Heaviside desplazada como mecanismo de control, controlando la activación y permitiendo un control eficaz del número de características latentes del modelo. Este diseño no solo optimiza la pérdida de reconstrucción, sino que también regulariza directamente el número de características latentes activas.
Gemma Scope se entrenó cuidadosamente en la activación del modelo Gemma2. Durante el entrenamiento, los vectores de activación del modelo se normalizaron y los SAEs se entrenaron en diferentes capas y posiciones, incluyendo la salida de la cabeza de atención, la salida de MLP y el flujo residual posterior a MLP.
El rendimiento de Gemma Scope se evaluó desde múltiples perspectivas. Los resultados experimentales muestran que la pérdida Delta de los SAEs de flujo residual suele ser mayor, mientras que la longitud de la secuencia tiene un impacto significativo en el rendimiento de los SAEs. Además, el rendimiento varía según los subconjuntos de datos; Gemma Scope obtuvo los mejores resultados en DeepMind mathematics.
La publicación de Gemma Scope ofrece la posibilidad de resolver una serie de problemas abiertos. No solo puede ayudarnos a comprender mejor los SAEs, sino que también puede mejorar el rendimiento en tareas prácticas, e incluso realizar pruebas de "equipo rojo" en los SAEs para determinar si realmente han encontrado los conceptos "reales" del modelo.
Con la aplicación de Gemma Scope, esperamos dar un paso importante en la explicabilidad y seguridad de la IA. Nos ayudará a comprender mejor el funcionamiento interno de los modelos de lenguaje, mejorando la transparencia y la fiabilidad de los modelos.
Dirección del artículo: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf
Experiencia en línea: https://www.neuronpedia.org/gemma-scope#main