mwp_ReFT

Framework d'ajustement fin des modèles basé sur l'apprentissage par renforcement profond

Produit OrdinaireProgrammationTraitement du langage naturelApprentissage profond

ReFT est un projet de recherche open source visant à affiner les grands modèles linguistiques à l'aide de techniques d'apprentissage par renforcement profond afin d'améliorer leurs performances sur des tâches spécifiques. Ce projet fournit du code et des données détaillés pour permettre aux chercheurs et aux développeurs de reproduire les résultats de l'article. Les principaux avantages de ReFT incluent la capacité d'ajuster automatiquement les paramètres du modèle grâce à l'apprentissage par renforcement et l'amélioration des performances du modèle sur des tâches spécifiques grâce à l'ajustement fin. ReFT est basé sur les modèles Codellama et Galactica et est publié sous licence Apache 2.0.

Prend en charge l'ajustement fin supervisé (SFT) : affinement du modèle par apprentissage supervisé.
Prend en charge l'ajustement fin par renforcement (ReFT) : affinement du modèle à l'aide de techniques d'apprentissage par renforcement.
Prend en charge l'apprentissage autosupervisé en ligne et hors ligne (Online-SL et Offline-SL).
Fournit des points de contrôle de plusieurs modèles pré-entraînés : permet aux utilisateurs de commencer l'ajustement fin à partir de différentes étapes.
Prend en charge l'évaluation Top-1 et Voting@100 : offre plusieurs méthodes d'évaluation des performances du modèle.
Prend en charge le reclassement : améliore les performances du modèle grâce à des techniques de reclassement.
Instructions et scripts d'expérimentation détaillés : permettent aux utilisateurs de démarrer rapidement les expérimentations et l'ajustement fin.

ReFT cible les chercheurs et les développeurs du domaine du traitement du langage naturel
en particulier ceux qui s'intéressent aux applications des techniques d'apprentissage profond et par renforcement aux modèles linguistiques. Ce produit leur convient car il fournit un framework pour affiner et améliorer les grands modèles linguistiques afin de les adapter à des tâches de PNL spécifiques
tout en offrant de nombreuses données expérimentales et un support de code.

Des chercheurs ont utilisé ReFT pour affiner le modèle Codellama sur le jeu de données GSM8k
améliorant ainsi la précision Top-1 du modèle.
Des développeurs ont utilisé le framework ReFT pour affiner le modèle Galactica sur le jeu de données mathqa
améliorant ainsi les performances Voting@100 du modèle.
Une équipe de recherche a utilisé ReFT pour affiner le modèle sur le jeu de données svamp avec ReFT et ReFT-Rerank

1. Accédez à la page GitHub de ReFT et clonez le code localement.
2. Installez toutes les dépendances selon les instructions du fichier README.md.
3. Sélectionnez le modèle pré-entraîné et les points de contrôle appropriés pour commencer l'ajustement fin.
4. En fonction des besoins spécifiques de l'expérience
exécutez le script shell correspondant pour entraîner ou évaluer le modèle.

Ouvrir le site Web

mwp_ReFT Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

mwp_ReFT Tendance des visites

mwp_ReFT Distribution géographique des visites

Best AI Websites & Tools

mwp_ReFT

mwp_ReFT Dernière situation du trafic

mwp_ReFT Tendance des visites

mwp_ReFT Distribution géographique des visites

mwp_ReFT Sources de trafic

mwp_ReFT Alternatives

mwp_ReFT — Framework d'ajustement fin des modèles basé sur l'apprentissage par renforcement profond

VLM-R1 — VLM-R1 est un modèle linguistique visuel renforcé stable et polyvalent, axé sur les tâches de compréhension visuelle.

MLGym — MLGym est un nouveau framework et une nouvelle référence pour faire progresser les agents de recherche en IA.

FlexHeadFA — Mécanisme d'attention précis, rapide et économe en mémoire

FlashMLA — FlashMLA est un noyau de décodage MLA hautement efficace optimisé pour les GPU Hopper, adapté aux services de séquences de longueur variable.

Détection de compatibilité des modèles DeepSeek — Détermine si un appareil peut exécuter des modèles DeepSeek de différentes tailles et fournit une prédiction de compatibilité.

pré-entraînement de modèles linguistiques récurrents — Code de pré-entraînement pour des modèles linguistiques récurrents profonds à grande échelle, capable de fonctionner sur 4096 GPU AMD.

RAG-FiT — RAG-FiT est une bibliothèque conçue pour améliorer la capacité des grands modèles de langage (LLM) à exploiter des informations externes, en affinant les modèles sur un ensemble de données spécialement créé pour l'augmentation RAG.

node-DeepResearch — Recherche et lecture continues de pages web jusqu'à ce que la réponse soit trouvée (ou jusqu'à épuisement du budget de jetons).

Tülu 3 405B — Tülu 3 405B est un modèle linguistique de grande envergure, open source, dont les performances ont été améliorées par apprentissage par renforcement.

Open R1 — Il s'agit d'un projet de reproduction d'un modèle DeepSeek-R1 entièrement open source, visant à aider les développeurs à reproduire et à construire des modèles basés sur R1.

Janus-Pro-1B — Janus-Pro-1B est un framework autorégressif unifié de compréhension et de génération multimodale.

Tarsier — Tarsier est un grand modèle linguistique vidéo développé par ByteDance pour générer des descriptions vidéo de haute qualité.

VideoLLaMA3 — VideoLLaMA3 est un modèle de base multimodal de pointe, spécialisé dans la compréhension des images et des vidéos.

DeepSeek-R1-Distill-Qwen-1.5B — DeepSeek-R1-Distill-Qwen-1.5B est un modèle linguistique open source performant pour l'inférence, adapté à diverses tâches de traitement du langage naturel.

DeepSeek-R1-Distill-Qwen-14B — DeepSeek-R1-Distill-Qwen-14B est un modèle de génération de texte hautes performances, adapté à diverses tâches d'inférence et de génération.

MiniMax-01 — Modèle linguistique puissant disposant de 456 milliards de paramètres au total, capable de traiter un contexte jusqu'à 4 millions de jetons.

DeepSeek-V3 — Modèle linguistique Mixture-of-Experts (MoE) de 671 milliards de paramètres.

DRT-o1 — Modèle de traduction automatique par inférence profonde, optimisé par une longue chaîne de réflexion.

Florence-VL — Outil d'amélioration des modèles de langage visuel, combinant un encodeur visuel génératif et une technique de fusion profonde et large.

LLaMA-Mesh — Unification d'un modèle linguistique et de la génération de maillages 3D

Démo TTS MaskGCT — Démonstration de texte à parole (TTS) basée sur le modèle MaskGCT

mPLUG-DocOwl 1.5 — Modèle d'apprentissage de structure unifié pour la compréhension de documents sans OCR

F5-TTS — Modèle de synthèse vocale (TTS) de haute qualité basé sur l'apprentissage profond

Llama 3.2 3b Voice — Outil de synthèse vocale utilisant le modèle Llama.

DeepMind — Société de recherche en intelligence artificielle de premier plan appartenant à Google

RWKV — Une architecture de modèle de langage de nouvelle génération, surpassant les Transformer.

llama3-from-scratch — Implémentation du modèle Llama3 à partir de zéro

llava-llama-3-8b-v1_1 — Modèle LLaVA optimisé par XTuner, combinant traitement d'images et de texte.

nasa-smd-ibm-st — Amélioration des techniques de traitement du langage naturel pour la recherche d'informations et la recherche intelligente orientées vers les missions scientifiques de la NASA