WARM est une solution permettant d'aligner les grands modèles de langage (LLM) avec les préférences humaines grâce à un modèle de récompense moyenné pondéré (WARM). Tout d'abord, WARM affine plusieurs modèles de récompense, puis les moyenne dans l'espace des poids. Grâce à cette moyenne pondérée, WARM améliore l'efficacité par rapport aux méthodes d'ensemble prédictives traditionnelles, tout en améliorant la fiabilité en cas de transfert de distribution et d'incohérence des préférences. Nos expériences montrent que WARM surpasse les méthodes traditionnelles sur des tâches de résumé, et qu'en utilisant les meilleures méthodes N et RL, WARM améliore la qualité globale et l'alignement des prédictions des LLM.