O Sakana AI, um laboratório de pesquisa em inteligência artificial focado em algoritmos inspirados na natureza, lançou recentemente um modelo de linguagem adaptativo inovador chamado Transformer² (Transformer-squared). Este modelo consegue aprender e se adaptar dinamicamente a novas tarefas durante o processo de inferência sem a necessidade de um dispendioso ajuste fino, marcando um passo importante no desenvolvimento de modelos de linguagem grandes (LLMs).

A inovação central do Transformer² reside em seu mecanismo exclusivo de ajuste de peso dinâmico em duas etapas. Primeiro, ele analisa a solicitação do usuário recebida para entender as necessidades da tarefa; então, usando técnicas matemáticas, ele alinha os pesos do modelo com as necessidades da tarefa usando a Decomposição em Valores Singulares (SVD). Ao ajustar seletivamente os componentes-chave dos pesos do modelo, o Transformer² consegue otimizar o desempenho em tempo real, sem a necessidade de um treinamento demorado. Isso contrasta fortemente com os métodos tradicionais de ajuste fino, que exigem que os parâmetros permaneçam estáticos após o treinamento, ou métodos como LoRA (Low-Rank Adaptation), que modificam apenas uma pequena parte dos parâmetros.

QQ20250124-104642.png

Treinamento e Inferência do Transformer ao Quadrado (Fonte: arXiv)

Para alcançar o ajuste dinâmico, os pesquisadores empregaram o método de ajuste fino de valores singulares (SVF). Durante o treinamento, o SVF aprende um conjunto de representações de habilidades, chamadas de vetores z, a partir dos componentes SVD do modelo. Durante a inferência, o Transformer² analisa o prompt para determinar as habilidades necessárias e, em seguida, configura os vetores z correspondentes, resultando em uma resposta personalizada para cada prompt.

Os resultados dos testes mostraram que o Transformer² supera os modelos LoRA em várias tarefas, incluindo matemática, codificação, raciocínio e perguntas e respostas visuais, com menos parâmetros. Ainda mais impressionante é a capacidade de transferência de conhecimento do modelo, ou seja, os vetores z aprendidos de um modelo podem ser aplicados a outro modelo, indicando um potencial de ampla aplicação.

QQ20250124-104627.png

Comparação do Transformer-squared (SVF na tabela) com modelos base e LoRA (Fonte: arXiv)

O Sakana AI publicou o código de treinamento dos componentes do Transformer² em sua página do GitHub, abrindo portas para outros pesquisadores e desenvolvedores.

À medida que as empresas exploram cada vez mais as aplicações de LLMs, as técnicas de personalização na inferência estão se tornando uma tendência dominante. O Transformer², juntamente com outras tecnologias como o Titans do Google, está mudando a maneira como os LLMs são usados, permitindo que os usuários ajustem dinamicamente os modelos de acordo com suas necessidades específicas, sem a necessidade de treinar novamente. Este avanço tecnológico tornará os LLMs mais úteis e práticos em uma gama mais ampla de áreas.

Os pesquisadores do Sakana AI afirmam que o Transformer² representa uma ponte entre a inteligência artificial estática e a inteligência viva, estabelecendo a base para ferramentas de IA eficientes, personalizadas e totalmente integradas.