Une équipe de recherche a récemment présenté une nouvelle méthode prometteuse, baptisée T-FREE, qui améliore considérablement l'efficacité des grands modèles de langage. Des scientifiques d'Aleph Alpha, de l'Université technique de Darmstadt, de hessian.AI et du Centre allemand de recherche en intelligence artificielle (DFKI) ont conjointement développé cette technologie remarquable, dont le nom complet est « Représentation creuse sans tokeniseur pour des plongements efficaces en mémoire ».

image.png

Traditionnellement, nous utilisons des tokeniseurs pour convertir le texte en une forme numérique compréhensible par les ordinateurs. T-FREE adopte une approche différente. Il utilise des triplets de caractères, que nous appelons « triplets », pour intégrer directement les mots dans le modèle via une activation creuse. Cette innovation a permis de réduire le nombre de paramètres de la couche d'intégration de plus de 85 %, sans pour autant affecter les performances du modèle sur des tâches telles que la classification de texte et la réponse aux questions.

Un autre atout majeur de T-FREE réside dans sa capacité intelligente à modéliser la similarité morphologique entre les mots. Comme pour les mots « house », « houses » et « domestic » que nous rencontrons fréquemment dans la vie quotidienne, T-FREE représente plus efficacement ces mots similaires dans le modèle. Les chercheurs estiment que des mots similaires devraient être plus proches les uns des autres lors de l'intégration, permettant ainsi un taux de compression plus élevé. Par conséquent, T-FREE non seulement réduit la taille de la couche d'intégration, mais diminue également la longueur de codage moyenne du texte de 56 %.

Il est également important de noter que T-FREE excelle dans l'apprentissage par transfert entre différentes langues. Dans une expérience, les chercheurs ont utilisé un modèle de 3 milliards de paramètres, d'abord entraîné en anglais, puis en allemand. Les résultats ont montré que T-FREE présentait une adaptabilité bien supérieure aux méthodes traditionnelles basées sur les tokeniseurs.

Cependant, les chercheurs restent modestes quant aux résultats actuels. Ils reconnaissent que les expériences menées jusqu'à présent se limitent à des modèles jusqu'à 3 milliards de paramètres et prévoient des évaluations plus poussées sur des modèles plus grands et des ensembles de données plus importants.