Hoje, a equipe Alibaba Cloud Tongyi lançou oficialmente o novo modelo de recompensa de processo de raciocínio matemático Qwen2.5-Math-PRM. Este modelo está disponível em dois tamanhos, 72B e 7B, e seu desempenho supera significativamente os modelos de recompensa de processo de código aberto similares, especialmente na identificação de erros de raciocínio.
A versão 7B do Qwen2.5-Math-PRM surpreendentemente superou o popular GPT-4o da indústria, um feito que marca um passo importante da Alibaba Cloud no desenvolvimento de modelos de raciocínio. Para avaliar completamente o desempenho do modelo em raciocínio matemático, a equipe Tongyi também lançou o primeiro padrão de avaliação em nível de etapas - ProcessBench. Este padrão de avaliação inclui 3400 casos de teste de problemas matemáticos, incluindo problemas com a dificuldade da Olimpíada Internacional de Matemática. Cada caso foi anotado detalhadamente por especialistas humanos, garantindo a cientificidade e a abrangência da avaliação.
Através da avaliação do desempenho do Qwen2.5-Math-PRM no ProcessBench, a equipe de pesquisa descobriu que os modelos de tamanho 72B e 7B apresentaram excelente desempenho. Em particular, a versão 7B não apenas superou os modelos de código aberto do mesmo tamanho, mas também superou o GPT-4o-0806 fechado em alguns aspectos. Isso demonstra o enorme potencial dos modelos de recompensa de processo (PRM) em melhorar a confiabilidade do raciocínio e fornece novas ideias para o desenvolvimento futuro de tecnologias de supervisão de processo de raciocínio.
Este trabalho inovador da equipe Alibaba Cloud Tongyi não apenas impulsiona o progresso da tecnologia de raciocínio de inteligência artificial, mas também fornece uma referência valiosa para outros desenvolvedores do setor. Através do código aberto, a equipe Tongyi espera compartilhar experiências com mais pesquisadores e impulsionar o progresso tecnológico de todo o setor.