Récemment, deux chercheurs sino-américains du Georgia Institute of Technology et de NVIDIA ont proposé un nouveau framework d'ajustement fin appelé RankRAG. Ce framework simplifie considérablement le pipeline RAG initialement complexe, utilisant une méthode d'ajustement fin pour permettre à un seul LLM d'effectuer les tâches de recherche, de classement et de génération, tout en améliorant considérablement les performances.
RAG (Retrieval-Augmented Generation) est une technique couramment utilisée dans le déploiement des LLM, particulièrement adaptée aux tâches de génération de texte nécessitant un grand nombre de connaissances factuelles. Généralement, le processus RAG consiste à : utiliser un modèle dense basé sur l'encodage de texte pour récupérer les meilleurs segments de texte à partir d'une base de données externe, puis le LLM lit et génère. Ce processus est largement utilisé, mais présente des limitations, telles que le choix de la valeur k. Si la valeur k est trop grande, même les LLM prenant en charge un long contexte auront du mal à traiter rapidement ; si la valeur k est trop petite, un mécanisme de recherche à haut taux de rappel est nécessaire, tandis que les moteurs de recherche et les modèles de classement existants présentent chacun des inconvénients.
Face à ces problèmes, le framework RankRAG propose une nouvelle approche : étendre les capacités du LLM par ajustement fin pour permettre au LLM de gérer lui-même la recherche et le classement. Les résultats expérimentaux montrent que cette méthode non seulement améliore l'efficacité des données, mais améliore également considérablement les performances du modèle. En particulier, sur plusieurs benchmarks généraux et benchmarks à forte intensité de connaissances biomédicales, les modèles Llama38B/70B ajustés finement par RankRAG surpassent respectivement les modèles ChatQA-1.58B et ChatQA-1.570B.
La clé de RankRAG réside dans son interactivité et son éditabilité élevées. Les utilisateurs peuvent non seulement consulter en temps réel le contenu généré par l'IA, mais également l'éditer et l'itérer directement sur l'interface. Ce mécanisme de rétroaction instantanée améliore considérablement l'efficacité du travail, faisant de l'IA un véritable atout dans le processus de création. Plus excitant encore, cette mise à jour permet de partager ces artefacts en dehors de la plateforme Claude, les utilisateurs pouvant facilement les partager n'importe où.
L'innovation du framework d'ajustement fin RankRAG comprend également un ajustement fin à deux étapes. La première étape est un ajustement fin supervisé (SFT), combinant plusieurs ensembles de données pour améliorer la capacité du LLM à suivre les instructions. La deuxième étape de l'ensemble de données d'ajustement fin comprend diverses données de QA, des données de QA améliorées par la recherche et des données de classement contextuel, améliorant encore les capacités de recherche et de classement du LLM.
Dans les expériences, RankRAG a constamment surpassé le modèle open source SOTA actuel ChatQA-1.5 sur neuf ensembles de données de domaines généraux. En particulier, dans les tâches QA difficiles, telles que les QA à longue traîne et les QA à sauts multiples, RankRAG a amélioré les performances de plus de 10 % par rapport à ChatQA-1.5.
En résumé, RankRAG excelle non seulement dans les tâches de recherche et de génération, mais démontre également sa forte adaptabilité sur le benchmark RAG biomédical Mirage. Même sans ajustement fin, RankRAG surpasse de nombreux modèles open source spécialisés dans les tâches de questions-réponses médicales.
Avec l'introduction et l'amélioration continue du framework RankRAG, nous avons des raisons de croire que l'avenir de la création collaborative entre l'IA et l'homme sera plus prometteur. Les développeurs indépendants et les chercheurs peuvent utiliser ce framework innovant pour stimuler davantage de créativité et de possibilités, et faire progresser la technologie et les applications.
Adresse de l'article : https://arxiv.org/abs/2407.02485