Os métodos tradicionais de ajuste fino de modelos de linguagem grandes (LLMs) são tipicamente intensivos em termos computacionais e se mostram estáticos ao lidar com tarefas diversificadas. Para solucionar esses desafios, a Sakana AI introduziu uma nova estrutura adaptativa chamada Transformer². O Transformer² consegue ajustar os pesos do LLM em tempo real durante o processo de inferência, permitindo que ele se adapte a diversas tarefas desconhecidas, com a flexibilidade de um polvo.
O núcleo do Transformer² reside em um mecanismo de duas etapas:
Na primeira etapa, um sistema de roteamento analisa a consulta do usuário e identifica as propriedades da tarefa.
Na segunda etapa, o sistema mistura dinamicamente vários vetores "especialistas". Esses vetores são treinados usando aprendizado por reforço, cada um focando em um tipo específico de tarefa, gerando assim um comportamento de modelo personalizado para a tarefa atual.
Em comparação com os métodos tradicionais de ajuste fino (como LoRA), este método utiliza menos parâmetros e é mais eficiente. O Transformer² demonstrou forte adaptabilidade em diferentes arquiteturas de LLM e modalidades (incluindo tarefas de linguagem visual).
Tecnologias-chave do Transformer²
Ajuste fino de valores singulares (SVF): Este é um novo método de ajuste fino eficiente em termos de parâmetros que funciona extraindo e ajustando os valores singulares da matriz de pesos do modelo. Este método reduz o risco de overfitting, diminui a necessidade de computação e permite a composição inerente. Treinando com aprendizado por reforço em conjuntos de dados menores, é possível obter um conjunto eficaz de vetores "especialistas" de domínio específico, otimizando diretamente o desempenho da tarefa em cada tópico.
Estratégia adaptativa: Na fase de inferência, o Transformer² emprega três estratégias adaptativas diferentes para combinar os vetores especialistas treinados com SVF. Essas estratégias podem ajustar dinamicamente os pesos do LLM com base nas condições de teste, permitindo a auto-adaptação.
Vantagens do Transformer²
Adaptabilidade dinâmica: O Transformer² consegue avaliar e modificar seu próprio comportamento de acordo com as mudanças no ambiente operacional ou no estado interno, sem intervenção externa.
Eficiência de parâmetros: Em comparação com métodos como LoRA, o SVF usa menos parâmetros, mas com desempenho superior.
Capacidade modular: Os vetores especialistas fornecem capacidade modular, enquanto as estratégias adaptativas podem determinar e combinar dinamicamente os vetores mais adequados para lidar com a tarefa de entrada.
Otimização por aprendizado por reforço: Através do aprendizado por reforço, o desempenho da tarefa pode ser otimizado diretamente, sem depender de processos de ajuste fino dispendiosos e grandes conjuntos de dados.
Compatibilidade entre modelos: Os vetores especialistas SVF podem ser transferidos entre diferentes modelos LLM, graças à sua estrutura de classificação inerente.
Resultados experimentais
Experimentos em vários LLMs e tarefas mostraram que o SVF sempre supera as estratégias tradicionais de ajuste fino (como LoRA).
As estratégias adaptativas do Transformer² mostraram melhorias significativas em várias tarefas desconhecidas.
A classificação de tarefas usando especialistas de classificação tem precisão superior à classificação usando diretamente engenharia de prompts.
A contribuição do coeficiente adaptativo (αk) é desigual em diferentes combinações de modelos e tarefas.
Perspectivas futuras
Embora o Transformer² tenha alcançado um progresso significativo, ainda há espaço para melhorias. Pesquisas futuras podem explorar técnicas de fusão de modelos, combinando diferentes modelos especializados em um modelo mais robusto. Além disso, também se pode pesquisar como expandir o método CEM para lidar com mais áreas de especialização.
Em resumo, o Transformer² representa um grande avanço no campo dos LLMs adaptativos, abrindo caminho para a construção de sistemas de IA verdadeiramente dinâmicos e auto-organizados.
Endereço do artigo: https://arxiv.org/pdf/2501.06252