Les grands modèles linguistiques (LLM) tels que GPT et Llama ont révolutionné le domaine de l'intelligence artificielle, mais l'entraînement efficace de ces modèles volumineux et leur alignement avec les valeurs humaines restent un défi majeur.

L'apprentissage par renforcement avec rétroaction humaine (RLHF) est une méthode d'entraînement des LLM largement utilisée ces dernières années. Cependant, les frameworks RLHF traditionnels présentent des limitations en termes de flexibilité, d'efficacité et d'extensibilité.

image.png

Pour résoudre ces problèmes, l'équipe Doubao de ByteDance a publié en open source HybridFlow, un framework RLHF qui ouvre de nouvelles perspectives pour l'entraînement des LLM.

Le RLHF comprend généralement trois phases :

Premièrement, le modèle acteur génère du texte en fonction de l'invite ; ensuite, le modèle critique, le modèle de référence et le modèle de récompense évaluent le texte généré et calculent les valeurs, les probabilités de référence et les récompenses correspondantes ;

image.png

Enfin, ces résultats d'évaluation sont utilisés pour entraîner le modèle acteur afin qu'il génère un texte plus conforme aux préférences humaines. Les frameworks RLHF traditionnels utilisent généralement un contrôleur unique pour gérer l'ensemble du flux de données, ce qui est inefficace pour les LLM nécessitant des calculs distribués.

Le framework HybridFlow associe de manière innovante les modes contrôleur unique et multi-contrôleurs, et grâce à une conception d'API hiérarchique, il découple les relations complexes de calcul et de dépendance des données, permettant ainsi une représentation flexible et une exécution efficace du flux de données RLHF.

image.png

Les principaux avantages de HybridFlow sont les suivants :

Support flexible de plusieurs algorithmes et modèles RLHF : HybridFlow fournit une API modulaire permettant aux utilisateurs de facilement implémenter et étendre divers algorithmes RLHF, tels que PPO, ReMax et Safe-RLHF.

Réorganisation efficace des poids du modèle : le composant 3D-HybridEngine permet une réorganisation efficace des poids du modèle acteur pendant les phases d'entraînement et de génération, minimisant ainsi la redondance de la mémoire et les frais généraux de communication.

Déploiement automatisé du modèle et sélection de stratégie parallèle : le composant Auto Mapping peut automatiquement mapper les modèles sur différents appareils en fonction de la charge du modèle et des dépendances de données, et sélectionner la meilleure stratégie parallèle, simplifiant ainsi le processus de déploiement du modèle et améliorant l'efficacité de l'entraînement.

Les résultats expérimentaux montrent que HybridFlow améliore considérablement le débit lors de l'exécution de divers algorithmes RLHF, atteignant jusqu'à 20,57 fois plus. La publication en open source de HybridFlow fournira un outil puissant pour la recherche et le développement de RLHF, stimulant ainsi le développement futur des technologies LLM.

Adresse de l'article : https://arxiv.org/pdf/2409.19256