【Investigación revolucionaria】
Un nuevo artículo publicado conjuntamente por la Universidad Tsinghua y la Universidad Jiao Tong de Shanghai, desafía la creencia generalizada en la industria de que "el aprendizaje por refuerzo puro (RL) puede mejorar la capacidad de razonamiento de los grandes modelos". La investigación descubrió que el rendimiento de los modelos que incorporan el aprendizaje por refuerzo es, en algunos casos, inferior al de los modelos originales que no utilizan el aprendizaje por refuerzo.
【Verificación experimental】
El equipo de investigación realizó experimentos sistemáticos en tres áreas principales: matemáticas, codificación y razonamiento visual:
- Tareas matemáticas: En las pruebas de referencia GSM8K y MATH500, la precisión del modelo RL mejoró con un bajo número de muestras (valor k), pero la cobertura de problemas disminuyó significativamente con un alto valor k.
- Tareas de codificación: La puntuación pass@1 de una sola muestra del modelo RLVR entrenado mejoró en las pruebas HumanEval+, pero la cobertura disminuyó con un alto número de muestras (k=128).
- Razonamiento visual: El rendimiento del modelo Qwen-2.5-VL-7B en tareas multimodales fue consistente, y el RL no alteró su estrategia básica de resolución de problemas.
【Controversia académica】
Los resultados de la investigación han provocado un intenso debate en el mundo académico:
- Los partidarios argumentan que el RL mejora la eficiencia del muestreo pero limita el desarrollo de la capacidad de razonamiento.
- Los opositores señalan que el problema podría radicar en los defectos de la estructura de recompensas y no en el RL en sí.
- Un punto de vista neutral sugiere combinar otros métodos, como la destilación, para mejorar el razonamiento.
【Reflexión esencial】
El equipo de investigación propone una distinción clave:
- Capacidad: El potencial del modelo para resolver problemas y las cadenas lógicas.
- Eficiencia: La velocidad y la estabilidad para obtener respuestas dentro de una capacidad dada.
El aprendizaje por refuerzo es más un "regulador de capacidad" que un "creador de capacidad". Permite que el modelo sea más hábil en las tareas que ya conoce, pero dificulta el desarrollo de nuevas vías de razonamiento.
【Implicaciones para la industria】
Esta investigación sirve como una advertencia sobre la fiebre del entrenamiento RL de grandes modelos, sugiriendo a la industria que:
- Se centre más en la capacidad de representación y la organización del conocimiento de los modelos básicos.
- Distinga claramente entre el objetivo de mejorar la capacidad y el de optimizar la eficiencia.
- Establezca un sistema de evaluación de la capacidad de razonamiento más científico.