En el campo de la inteligencia artificial, el lanzamiento de DeepSeek-R1 ha generado un amplio interés. Esta innovación representa un avance revolucionario en la industria de la IA. Su arquitectura de red de atención latente de múltiples cabezas (Multi-head Latent Attention, MLA) utiliza la técnica de compresión de bajo rango para reducir significativamente los costos de entrenamiento e inferencia, incluso hasta una décima parte de los modelos grandes de rendimiento equivalente. Este logro fue realizado por el Dr. Ji Tao y su equipo del laboratorio de PNL de la Universidad de Fudan, con el objetivo de permitir que cualquier modelo de lenguaje grande preentrenado se transfiera rápidamente a la arquitectura MLA sin necesidad de volver a entrenar desde cero.

Actualmente, los modelos grandes predominantes se basan en el mecanismo de atención de múltiples cabezas estándar (MHA) y sus variantes. Estos modelos presentan una desventaja significativa en el costo de inferencia en comparación con MLA. Por lo tanto, el equipo de investigación propuso el marco MHA2MLA, que busca lograr la migración de la arquitectura MHA/GQA a MLA mediante dos pasos clave: la retención parcial de RoPE y la aproximación de bajo rango de la representación conjunta clave-valor.

image.png

En la implementación de MHA2MLA, el equipo primero utilizó una estrategia de ajuste fino parcial de RoPE para separar la codificación posicional de la dimensión alta, conservando un pequeño número de dimensiones relacionadas con la posición. Esto resolvió el conflicto entre MLA y RoPE. Luego, mediante la técnica de descomposición de valores singulares (SVD), se realizó una aproximación de bajo rango de los vectores clave-valor para maximizar la retención del conocimiento preentrenado y reducir significativamente el espacio de caché. Los resultados experimentales muestran que solo se necesita del 0,3% al 0,6% de los datos preentrenados para el ajuste fino, con el fin de recuperar básicamente la pérdida de rendimiento durante el proceso de transferencia.

Después de combinarlo con otras técnicas de inferencia eficientes, como la cuantificación de caché KV de 4 bits, la caché KV del modelo Llama2-7B se redujo en un 92,19%, con una pérdida de rendimiento de solo el 0,5%. Este resultado demuestra la excelente compatibilidad del marco MHA2MLA con las técnicas de compresión, manteniendo al mismo tiempo la capacidad de inferencia y el procesamiento de contextos largos del modelo. Esto proporciona una nueva vía viable para implementar modelos de lenguaje grandes con eficiencia de recursos.

Sin embargo, el equipo de investigación también señala que el experimento estuvo limitado por las condiciones de hardware y aún no ha cubierto modelos como Llama3 que requieren un ajuste fino de contexto largo de 128K. Las investigaciones futuras se centrarán en la expansión a más arquitecturas de modelos y la combinación con estrategias de ajuste fino de parámetros eficientes para reducir aún más la escala de actualización de parámetros durante el proceso de transferencia.