R1-V
Améliore la capacité de généralisation des modèles linguistiques visuels renforcés à faible coût, pour moins de 3 dollars.
Produit OrdinaireProgrammationApprentissage par renforcementModèles linguistiques visuels
R1-V est un projet axé sur l'amélioration de la capacité de généralisation des modèles linguistiques visuels renforcés (VLM). Grâce à la technique d'apprentissage par renforcement avec récompenses vérifiables (RLVR), il améliore considérablement la capacité de généralisation des VLM dans les tâches de comptage visuel, notamment lors des tests hors distribution (OOD). L'importance de cette technique réside dans sa capacité à optimiser efficacement les modèles à grande échelle à un coût extrêmement faible (seulement 2,62 $ de coût de formation), ouvrant de nouvelles perspectives pour la mise en pratique des modèles linguistiques visuels. Le projet s'appuie sur des améliorations apportées aux méthodes d'entraînement des VLM existantes, avec pour objectif d'améliorer les performances du modèle dans des tâches visuelles complexes grâce à des stratégies d'entraînement innovantes. La nature open source de R1-V en fait également une ressource importante pour les chercheurs et les développeurs souhaitant explorer et appliquer les technologies VLM avancées.
R1-V Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34