RL4VLM
Ajustement d'un grand modèle visuel-linguistique par apprentissage par renforcement pour en faire un agent décisionnel.
Produit OrdinaireProgrammationApprentissage par renforcementModèle visuel-linguistique
RL4VLM est un projet open source visant à affiner un grand modèle visuel-linguistique par apprentissage par renforcement, afin d'en faire un agent intelligent capable de prendre des décisions. Ce projet a été développé conjointement par Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma et Sergey Levine. Il est basé sur le modèle LLaVA et utilise l'algorithme PPO pour l'apprentissage par renforcement. Le projet RL4VLM fournit une structure de bibliothèque de code détaillée, un guide de démarrage, des informations de licence et des instructions sur la manière de citer cette recherche.
RL4VLM Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34