Hoy, el equipo de Alibaba Cloud Tongyi ha lanzado oficialmente el nuevo modelo de recompensa de proceso de razonamiento matemático Qwen2.5-Math-PRM. Este modelo está disponible en dos tamaños, 72B y 7B, y su rendimiento supera significativamente a los modelos de recompensa de proceso de código abierto similares, especialmente en la identificación de errores de razonamiento.

Sorprendentemente, la versión 7B de Qwen2.5-Math-PRM supera al popular GPT-4o, un logro que marca un paso importante para Alibaba Cloud en el desarrollo de modelos de razonamiento. Para evaluar completamente el rendimiento del modelo en razonamiento matemático, el equipo de Tongyi también ha lanzado ProcessBench, el primer estándar de evaluación a nivel de pasos. Este estándar abarca 3400 casos de prueba de problemas matemáticos, incluyendo problemas de la Olimpiada Internacional de Matemáticas, cada uno con un proceso de razonamiento detallado anotado por expertos humanos, garantizando la cientificidad y exhaustividad de la evaluación.

image.png

Tras evaluar el rendimiento de Qwen2.5-Math-PRM en ProcessBench, el equipo de investigación descubrió que ambos modelos, tanto el de 72B como el de 7B, mostraron un excelente rendimiento. En particular, la versión 7B no solo superó a los modelos de código abierto del mismo tamaño, sino que incluso superó en algunos aspectos al GPT-4o-0806 de código cerrado. Esto demuestra el enorme potencial de los modelos de recompensa de proceso (PRM) para mejorar la fiabilidad del razonamiento y ofrece nuevas ideas para el desarrollo futuro de las técnicas de supervisión del proceso de razonamiento.

image.png

Este trabajo innovador del equipo de Alibaba Cloud Tongyi no solo impulsa el progreso de la tecnología de razonamiento de inteligencia artificial, sino que también proporciona una valiosa referencia para otros desarrolladores del sector. A través del código abierto, el equipo de Tongyi espera compartir experiencias con más investigadores e impulsar el progreso tecnológico de toda la industria.