Sakana AI, un laboratoire de recherche en intelligence artificielle spécialisé dans les algorithmes d'inspiration naturelle, a récemment lancé un modèle linguistique adaptatif innovant appelé Transformer² (Transformer-squared). Ce modèle, sans nécessiter de coûteux ajustements fins, peut apprendre et s'adapter dynamiquement à de nouvelles tâches lors du processus d'inférence, marquant ainsi une étape importante dans le développement des grands modèles linguistiques (LLM).

L'innovation principale de Transformer² réside dans son mécanisme unique d'ajustement dynamique des poids en deux étapes. Premièrement, il analyse la requête de l'utilisateur entrante pour comprendre les besoins de la tâche ; ensuite, grâce à des techniques mathématiques, il utilise la décomposition en valeurs singulières (SVD) pour aligner les poids du modèle avec les besoins de la tâche. En ajustant sélectivement les composants clés des poids du modèle, Transformer² peut optimiser ses performances en temps réel, sans nécessiter de réentraînement long et fastidieux. Cela contraste fortement avec les méthodes d'ajustement fin traditionnelles, qui nécessitent de maintenir les paramètres statiques après l'entraînement, ou d'utiliser des méthodes comme LoRA (Low-Rank Adaptation), qui ne modifient qu'une petite partie des paramètres.

QQ20250124-104642.png

Entraînement et inférence de Transformer au carré (Source : arXiv)

Pour réaliser cet ajustement dynamique, les chercheurs ont utilisé la méthode de l'ajustement fin par valeurs singulières (SVF). Pendant l'entraînement, le SVF apprend un ensemble de représentations de compétences, appelées vecteurs z, à partir des composants SVD du modèle. Lors de l'inférence, Transformer² analyse l'invite pour déterminer les compétences nécessaires, puis configure les vecteurs z correspondants, permettant ainsi une réponse personnalisée pour chaque invite.

Les résultats des tests montrent que Transformer² surpasse les modèles LoRA dans diverses tâches, telles que les mathématiques, le codage, le raisonnement et la question-réponse visuelle, tout en utilisant moins de paramètres. Plus remarquable encore, le modèle possède également une capacité de transfert de connaissances, c'est-à-dire que les vecteurs z appris à partir d'un modèle peuvent être appliqués à un autre modèle, ce qui indique un potentiel d'application large.

QQ20250124-104627.png

Comparaison de Transformer-squared (SVF dans le tableau) avec les modèles de base et LoRA (Source : arXiv)

Sakana AI a publié le code d'entraînement des composants de Transformer² sur sa page GitHub, ouvrant ainsi la voie à d'autres chercheurs et développeurs.

Alors que les entreprises explorent de plus en plus les applications des LLM, les techniques de personnalisation lors de l'inférence deviennent de plus en plus courantes. Transformer², ainsi que d'autres technologies comme Titans de Google, sont en train de révolutionner la façon dont les LLM sont utilisés, permettant aux utilisateurs d'ajuster dynamiquement les modèles en fonction de leurs besoins spécifiques, sans avoir besoin de réentraînement. Ces progrès technologiques rendront les LLM plus utiles et pratiques dans un éventail plus large de domaines.

Les chercheurs de Sakana AI affirment que Transformer² représente un pont entre l'intelligence artificielle statique et l'intelligence vivante, jetant les bases d'outils d'intelligence artificielle efficaces, personnalisés et entièrement intégrés.