A medida que las empresas utilizan cada vez más modelos lingüísticos de gran tamaño (LLM), mejorar la precisión del conocimiento del modelo y reducir las alucinaciones se ha convertido en un desafío importante. Investigadores de Meta AI presentan en un nuevo artículo una "capa de memoria escalable" que podría ofrecer una solución a este problema.
La idea central de la capa de memoria escalable es agregar más parámetros a los LLM para mejorar su capacidad de aprendizaje sin aumentar los recursos computacionales necesarios para la inferencia. Esta arquitectura es adecuada para aplicaciones que necesitan almacenar una gran cantidad de conocimientos fácticos pero desean mantener la velocidad de inferencia.
Los modelos lingüísticos tradicionales utilizan "capas densas" para codificar grandes cantidades de información. En las capas densas, casi todos los parámetros se activan simultáneamente durante la inferencia, lo que permite aprender funciones complejas, pero esto requiere recursos computacionales y energéticos adicionales. Para conocimientos fácticos simples, una capa simple con una arquitectura de memoria asociativa es más eficiente y fácil de entender; ahí es donde entra en juego la capa de memoria. La capa de memoria codifica y recupera conocimientos mediante un mecanismo simple de activación dispersa y búsqueda por clave-valor. Aunque las capas dispersas tienen un mayor consumo de memoria que las capas densas, utilizan solo una pequeña cantidad de parámetros a la vez, lo que mejora la eficiencia computacional.
Aunque las capas de memoria existen desde hace años, su aplicación en arquitecturas modernas de aprendizaje profundo ha sido escasa, principalmente porque no están optimizadas para los aceleradores de hardware actuales. Los LLM de vanguardia suelen utilizar alguna forma de arquitectura de "mezcla de expertos", que tiene similitudes con las capas de memoria. Los modelos de mezcla de expertos están compuestos por varios componentes expertos pequeños y especializados, y un mecanismo de enrutamiento activa a los expertos específicos durante la inferencia.
Para superar el desafío de que las capas de memoria son computacionalmente ligeras pero con un gran consumo de memoria, los investigadores de Meta propusieron varias mejoras para hacerlas viables en aplicaciones a gran escala. Configuraron la capa de memoria para que sea paralelizable, permitiendo almacenar millones de pares clave-valor en múltiples GPU sin ralentizar la velocidad del modelo. Además, desarrollaron núcleos CUDA específicos para manejar operaciones de alto ancho de banda de memoria e implementaron un mecanismo de compartición de parámetros que permite que múltiples capas de memoria compartan un conjunto de parámetros de memoria.
Los investigadores probaron el modelo de memoria mejorado modificando el modelo Llama, reemplazando una o más capas densas por capas de memoria compartidas. Sus estudios muestran que el modelo de memoria funciona excepcionalmente bien en varias tareas, especialmente en aquellas que requieren conocimientos fácticos, superando significativamente a la línea de base densa e incluso compitiendo con modelos que utilizan de 2 a 4 veces más recursos computacionales.
Enlace al artículo: https://arxiv.org/abs/2412.09764
Puntos clave:
🧠 La capa de memoria escalable puede mejorar la capacidad de aprendizaje de los modelos lingüísticos sin aumentar los recursos computacionales.
💡 Los estudios muestran que la capa de memoria funciona excepcionalmente bien en varias tareas, especialmente en aquellas que requieren conocimientos fácticos.
🚀 Los investigadores de Meta abogan por la integración de la capa de memoria en las arquitecturas de IA de próxima generación para reducir el olvido y las alucinaciones.