L'équipe de Zhang Muhan de l'Université de Pékin a proposé un nouveau cadre, Long Input Fine-Tuning (LIFT), qui permet à n'importe quel modèle à fenêtre contextuelle courte de traiter de longs textes en entraînant ces longs textes dans les paramètres du modèle. Cette approche révolutionne la manière traditionnelle de traiter les longs textes, en abandonnant l'idée d'étendre indéfiniment la fenêtre contextuelle au profit de l'intégration des connaissances des longs textes dans les paramètres du modèle, un processus similaire à la transformation de la mémoire de travail en mémoire à long terme chez l'humain.

image.png

Les grands modèles linguistiques actuels sont confrontés à deux défis majeurs pour le traitement des longs textes :

La complexité quadratique des mécanismes d'attention traditionnels entraîne des coûts de calcul et de mémoire importants lors du traitement de longs textes. Les modèles ont du mal à comprendre les relations à long terme dispersées dans les longs textes.

Les solutions existantes, telles que RAG et l'adaptation à long contexte, présentent des limitations :

RAG dépend de la précision de la recherche et peut introduire du bruit, entraînant des hallucinations. L'adaptation à long contexte a une complexité d'inférence élevée et la fenêtre contextuelle reste limitée.

L'innovation technologique de LIFT

Le cadre LIFT comprend trois composants clés :

Entraînement dynamique et efficace des longues entrées

La modélisation linguistique par segments divise les longs textes en segments qui se chevauchent. Cela évite l'augmentation de la complexité de l'inférence et la perte de dépendances à long terme dues à un contexte trop long. La complexité de l'entraînement augmente linéairement avec la longueur du texte.

image.png

Adaptateur de mémoire à contrôle d'accès pour équilibrer les capacités du modèle

Une architecture d'adaptateur de mémoire à contrôle d'accès (Gated Memory Adapter) est conçue pour équilibrer dynamiquement les capacités d'apprentissage en contexte du modèle d'origine et la compréhension de la mémoire des longues entrées. Elle permet au modèle de régler automatiquement la quantité d'informations de la mémoire LIFT à utiliser en fonction de la requête.

Entraînement sur des tâches auxiliaires

Des tâches auxiliaires de type question-réponse sont générées automatiquement à partir de longs textes par un LLM pré-entraîné. Cela compense les capacités potentiellement perdues lors de l'entraînement par segments et aide le modèle à apprendre à utiliser les informations des longs textes pour répondre aux questions.

image.png

Résultats expérimentaux

LIFT a obtenu des améliorations significatives sur plusieurs tests de référence de long contexte :

Questions-réponses à longue dépendance LooGLE : le taux de précision de Llama38B est passé de 15,44 % à 29,97 %. Questions-réponses à courte dépendance LooGLE : le taux de précision de Gemma29B est passé de 37,37 % à 50,33 %. Plusieurs sous-tâches de LongBench : Llama3 a montré une amélioration significative sur 4 des 5 sous-tâches grâce à LIFT.

Les expériences d'ablation montrent que l'architecture Gated Memory a amélioré le score GPT-4 de 5,48 % sur l'ensemble de données LooGLE ShortQA par rapport au modèle d'origine affiné avec PiSSA.

Limitations et orientations futures

Bien que LIFT ait obtenu des résultats significatifs, il présente certaines limitations :

Les performances restent médiocres pour les tâches de « recherche d'une aiguille dans une botte de foin » nécessitant une extraction d'informations précise. La capacité du modèle à extraire les connaissances paramétrées acquises par LIFT doit être optimisée. La conception des tâches auxiliaires dépend fortement des tâches de test en aval, ce qui limite sa généralisation. La manière d'équilibrer la mémoire et les capacités existantes reste un point de recherche clé.

L'équipe de recherche encourage la communauté à explorer le potentiel de LIFT avec des données d'entraînement plus vastes, des modèles plus riches, une conception plus avancée des tâches auxiliaires et un support accru en termes de ressources de calcul.

Conclusion

LIFT propose un nouveau paradigme pour le traitement des longs textes, transformant les connaissances contextuelles en connaissances paramétrées, une approche similaire à la transformation de la mémoire à court terme en mémoire à long terme chez l'humain. Bien qu'il reste encore du chemin à parcourir pour résoudre complètement le défi du long contexte, LIFT ouvre une voie de recherche très prometteuse.

Adresse de l'article : https://arxiv.org/abs/2502.14644