RL4VLM

Ajustement d'un grand modèle visuel-linguistique par apprentissage par renforcement pour en faire un agent décisionnel.

Produit OrdinaireProgrammationApprentissage par renforcementModèle visuel-linguistique
RL4VLM est un projet open source visant à affiner un grand modèle visuel-linguistique par apprentissage par renforcement, afin d'en faire un agent intelligent capable de prendre des décisions. Ce projet a été développé conjointement par Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma et Sergey Levine. Il est basé sur le modèle LLaVA et utilise l'algorithme PPO pour l'apprentissage par renforcement. Le projet RL4VLM fournit une structure de bibliothèque de code détaillée, un guide de démarrage, des informations de licence et des instructions sur la manière de citer cette recherche.
Ouvrir le site Web

RL4VLM Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

RL4VLM Tendance des visites

RL4VLM Distribution géographique des visites

RL4VLM Sources de trafic

RL4VLM Alternatives