Recientemente, los modelos lingüísticos de gran tamaño (LLM) han experimentado un rápido desarrollo, y los modelos Transformer han jugado un papel crucial en este avance. El núcleo de Transformer es el mecanismo de atención, que actúa como un filtro de información, permitiendo que el modelo se centre en las partes más importantes de una oración. Sin embargo, incluso los poderosos Transformer pueden verse afectados por información irrelevante, como si estuvieras buscando un libro en una biblioteca y te vieras abrumado por una pila de libros sin relación, lo que reduce la eficiencia.
Esta información irrelevante generada por el mecanismo de atención se conoce en la literatura como ruido de atención. Imagínate que quieres encontrar una información clave en un documento, pero la atención del modelo Transformer se dispersa en varios lugares irrelevantes, como si fuera un miope que no puede ver el punto central.
Para solucionar este problema, este artículo presenta el Transformer Diferencial (DIFF Transformer). El nombre suena sofisticado, pero el principio es sencillo, como los auriculares con cancelación de ruido, que eliminan el ruido mediante la diferencia entre dos señales.
El núcleo del Transformer Diferencial es el mecanismo de atención diferencial. Divide los vectores de consulta y clave en dos grupos, calcula dos mapas de atención por separado y luego resta estos dos mapas para obtener la puntuación de atención final. Este proceso es similar a tomar dos fotografías del mismo objeto con dos cámaras y superponerlas; las diferencias se destacarán.
De esta manera, el Transformer Diferencial puede eliminar eficazmente el ruido de atención y permitir que el modelo se centre en la información clave. Es como si usaras auriculares con cancelación de ruido: el ruido ambiental desaparece y puedes escuchar más claramente el sonido que deseas.
El artículo presenta una serie de experimentos que demuestran la superioridad del Transformer Diferencial. En primer lugar, muestra un excelente rendimiento en el modelado del lenguaje, alcanzando resultados similares con solo el 65% del tamaño del modelo o los datos de entrenamiento de un Transformer.
En segundo lugar, el Transformer Diferencial también es superior en el modelado de textos largos, pudiendo utilizar eficazmente información contextual más extensa.
Más importante aún, el Transformer Diferencial muestra ventajas significativas en la recuperación de información clave, la reducción de alucinaciones del modelo y el aprendizaje contextual.
En la recuperación de información clave, el Transformer Diferencial actúa como un motor de búsqueda preciso, capaz de encontrar con exactitud el contenido deseado en una gran cantidad de información, incluso en escenarios extremadamente complejos, manteniendo una alta precisión.
En la reducción de alucinaciones del modelo, el Transformer Diferencial evita eficazmente que el modelo "hable sin sentido", generando resúmenes de texto y respuestas a preguntas más precisas y fiables.
En el aprendizaje contextual, el Transformer Diferencial se asemeja a un estudiante aventajado, capaz de aprender rápidamente nuevos conocimientos a partir de pocas muestras, con un rendimiento de aprendizaje más estable que el Transformer, que es más susceptible al orden de las muestras.
Además, el Transformer Diferencial puede reducir eficazmente los valores atípicos en los valores de activación del modelo, lo que significa que es más amigable para la cuantificación del modelo y permite una cuantificación de menor bit, mejorando así la eficiencia del modelo.
En resumen, el Transformer Diferencial resuelve eficazmente el problema del ruido de atención en los modelos Transformer mediante el mecanismo de atención diferencial, y ha logrado mejoras significativas en varios aspectos. Ofrece una nueva perspectiva para el desarrollo de modelos lingüísticos de gran tamaño y jugará un papel importante en más áreas en el futuro.
Enlace del artículo: https://arxiv.org/pdf/2410.05258