Une récente étude de l'École polytechnique fédérale de Lausanne (EPFL) a comparé deux méthodes d'adaptation de grands modèles linguistiques (LLM) : l'apprentissage contextuel (ICL) et l'instruction fine-tuning (IFT). Les chercheurs ont utilisé le benchmark MT-Bench pour évaluer la capacité des modèles à suivre les instructions, révélant des performances variables selon les cas.
L'étude a montré que lorsque le nombre d'exemples d'entraînement est limité (par exemple, 50 ou moins), l'ICL et l'IFT affichent des résultats très similaires. Cela suggère que l'ICL pourrait être une alternative à l'IFT lorsque les données sont rares.
Cependant, avec l'augmentation de la complexité des tâches, notamment dans les scénarios de dialogues multi-tours, l'IFT prend un avantage significatif. Les chercheurs estiment que les modèles ICL sont sujets à un sur-apprentissage du style d'un seul exemple, ce qui conduit à de mauvaises performances, voire inférieures à celles du modèle de base, lors de la gestion de dialogues complexes.
L'étude a également examiné la méthode URIAL, qui utilise seulement trois exemples et des règles de suivi d'instructions pour entraîner un modèle linguistique de base. Bien que URIAL ait montré des résultats intéressants, elle reste en retrait par rapport aux modèles entraînés avec IFT. Les chercheurs de l'EPFL ont amélioré les performances de URIAL en optimisant la stratégie de sélection des exemples, se rapprochant ainsi des performances des modèles finement ajustés. Ceci souligne l'importance de données d'entraînement de haute qualité pour l'ICL, l'IFT et l'entraînement des modèles de base.
De plus, l'étude a révélé que les paramètres de décodage ont un impact significatif sur les performances du modèle. Ces paramètres déterminent la manière dont le modèle génère du texte et sont cruciaux pour les LLM de base et les modèles entraînés avec URIAL.
Les chercheurs ont constaté que même les modèles de base, avec des paramètres de décodage appropriés, peuvent suivre les instructions dans une certaine mesure.
Cette étude met en lumière la capacité de l'apprentissage contextuel à ajuster rapidement et efficacement les modèles linguistiques, particulièrement lorsque les exemples d'entraînement sont limités. Cependant, pour les tâches complexes comme les dialogues multi-tours, l'instruction fine-tuning reste la meilleure option.
Avec l'augmentation de la taille des ensembles de données, les performances de l'IFT continuent de s'améliorer, tandis que celles de l'ICL se stabilisent après un certain nombre d'exemples. Les chercheurs soulignent que le choix entre ICL et IFT dépend de plusieurs facteurs, tels que les ressources disponibles, la quantité de données et les besoins spécifiques de l'application. Quelle que soit la méthode choisie, la qualité des données d'entraînement est primordiale.