R1-V es un proyecto centrado en mejorar la capacidad de generalización de los modelos de lenguaje visual reforzados (VLM). Mediante la técnica de aprendizaje reforzado con recompensas verificables (RLVR), mejora significativamente la capacidad de generalización de los VLM en tareas de conteo visual, especialmente en pruebas fuera de distribución (OOD). La importancia de esta técnica radica en su capacidad para optimizar modelos a gran escala de forma eficiente con un coste extremadamente bajo (solo 2,62 dólares), ofreciendo una nueva perspectiva para la aplicación práctica de los modelos de lenguaje visual. El proyecto se basa en la mejora de los métodos de entrenamiento de VLM existentes, con el objetivo de mejorar el rendimiento del modelo en tareas visuales complejas mediante estrategias de entrenamiento innovadoras. La naturaleza de código abierto de R1-V lo convierte en un recurso importante para que investigadores y desarrolladores exploren y apliquen tecnologías VLM avanzadas.