Los métodos tradicionales de ajuste fino de los grandes modelos de lenguaje (LLM) suelen ser computacionalmente intensivos y estáticos al abordar tareas diversas. Para abordar estos desafíos, Sakana AI ha presentado un nuevo marco adaptativo llamado Transformer². Transformer² puede ajustar los pesos del LLM en tiempo real durante el proceso de inferencia, lo que le permite adaptarse a diversas tareas desconocidas con la flexibilidad de un pulpo.

El núcleo de Transformer² reside en un mecanismo de dos etapas:

En la primera etapa, un sistema de programación analiza la consulta del usuario e identifica las propiedades de la tarea.

En la segunda etapa, el sistema mezcla dinámicamente múltiples vectores "expertos". Estos vectores se entrenan utilizando aprendizaje por refuerzo, y cada uno se centra en un tipo específico de tarea, generando así un comportamiento de modelo personalizado para la tarea actual.

image.png

En comparación con los métodos tradicionales de ajuste fino (como LoRA), este método utiliza menos parámetros y es más eficiente. Transformer² ha demostrado una sólida adaptabilidad en diferentes arquitecturas y modalidades de LLM (incluidas las tareas de lenguaje visual).

Tecnologías clave de Transformer²

Ajuste fino de valores singulares (SVF): Este es un nuevo método de ajuste fino eficiente en parámetros que lo logra extrayendo y ajustando los valores singulares de la matriz de pesos del modelo. Este método reduce el riesgo de sobreajuste, disminuye las necesidades computacionales y permite la combinatoria inherente. Al entrenar con aprendizaje por refuerzo en conjuntos de datos estrechos, se puede obtener un conjunto de vectores "expertos" de dominio específico efectivos, optimizando directamente el rendimiento de la tarea para cada tema.

image.png

Estrategias adaptativas: Durante la etapa de inferencia, Transformer² emplea tres estrategias adaptativas diferentes para combinar los vectores expertos entrenados con SVF. Estas estrategias pueden ajustar dinámicamente los pesos del LLM según las condiciones de prueba, logrando así la autoadaptación.

Ventajas de Transformer²

Adaptabilidad dinámica: Transformer² puede evaluar y modificar su propio comportamiento en respuesta a cambios en el entorno operativo o en el estado interno, sin intervención externa.

Eficiencia de parámetros: En comparación con métodos como LoRA, SVF utiliza menos parámetros pero ofrece un rendimiento superior.

Capacidad modular: Los vectores expertos proporcionan capacidad modular, mientras que las estrategias adaptativas pueden determinar y combinar dinámicamente los vectores más adecuados para manejar la tarea de entrada.

Optimización de aprendizaje por refuerzo: Mediante el aprendizaje por refuerzo, se puede optimizar directamente el rendimiento de la tarea sin depender de costosos procedimientos de ajuste fino y grandes conjuntos de datos.

Compatibilidad entre modelos: Los vectores expertos SVF se pueden transferir entre diferentes modelos LLM, gracias a su estructura de ordenación inherente.

Resultados experimentales

Los experimentos realizados en múltiples LLM y tareas muestran que el rendimiento de SVF supera constantemente a las estrategias tradicionales de ajuste fino (como LoRA).

Las estrategias adaptativas de Transformer² muestran una mejora significativa en diversas tareas desconocidas.

La clasificación de tareas utilizando expertos de clasificación proporciona una precisión de clasificación mayor que la clasificación mediante ingeniería de prompts directa.

La contribución del coeficiente adaptativo (αk) no es uniforme en diferentes combinaciones de modelos y tareas.

Perspectivas futuras

Aunque Transformer² ha logrado un progreso significativo, aún existe margen para mejoras. Las investigaciones futuras podrían explorar técnicas de fusión de modelos para combinar diferentes modelos especializados en un modelo más potente. Además, se podría investigar cómo ampliar el método CEM para abordar más áreas de especialización.

En resumen, Transformer² representa un gran avance en el campo de los LLM adaptativos, allanando el camino para la construcción de sistemas de IA verdaderamente dinámicos y autoorganizados.

Dirección del artículo: https://arxiv.org/pdf/2501.06252