Kunlun Wanwei Technology Co., Ltd. anunció recientemente que sus dos nuevos modelos de recompensa, Skywork-Reward-Gemma-2-27B y Skywork-Reward-Llama-3.1-8B, han demostrado un rendimiento excepcional en RewardBench, un punto de referencia internacional para la evaluación de modelos de recompensa. El modelo Skywork-Reward-Gemma-2-27B incluso obtuvo el primer lugar, recibiendo el alto reconocimiento de RewardBench.
Los modelos de recompensa ocupan un lugar central en el aprendizaje por refuerzo, evaluando el rendimiento de un agente en diferentes estados y proporcionando señales de recompensa para guiar su proceso de aprendizaje, permitiéndole tomar las mejores decisiones en un entorno específico. En el entrenamiento de grandes modelos de lenguaje, el papel de los modelos de recompensa es especialmente crucial, ayudando al modelo a comprender y generar contenido que se ajuste mejor a las preferencias humanas.
RewardBench es un ranking de referencia diseñado específicamente para evaluar la efectividad de los modelos de recompensa en grandes modelos de lenguaje. Evalúa los modelos de forma integral a través de múltiples tareas, incluyendo conversación, razonamiento y seguridad. El conjunto de datos de prueba del ranking consiste en tríadas formadas por una indicación, una respuesta seleccionada y una respuesta rechazada, para probar si el modelo de recompensa puede clasificar correctamente la respuesta seleccionada por encima de la rechazada, dada la indicación.
Los modelos Skywork-Reward de Kunlun Wanwei se desarrollaron utilizando un conjunto de datos de orden parcial cuidadosamente seleccionado y un modelo base relativamente pequeño. A diferencia de los modelos de recompensa existentes, sus datos de orden parcial provienen únicamente de datos públicos de internet, obtenidos mediante una estrategia de selección específica para asegurar un conjunto de datos de alta calidad. Estos datos abarcan una amplia gama de temas, incluyendo seguridad, matemáticas y código, y han sido verificados manualmente para garantizar la objetividad de los datos y la significancia de la diferencia de recompensa.
Las pruebas demostraron que los modelos de recompensa de Kunlun Wanwei mostraron un rendimiento excepcional en áreas como conversación y seguridad. En particular, solo el modelo Skywork-Reward-Gemma-2-27B proporcionó predicciones correctas al enfrentarse a muestras difíciles. Este logro destaca la fortaleza tecnológica y la capacidad de innovación de Kunlun Wanwei en el campo de la IA a nivel mundial, y también ofrece nuevas posibilidades para el desarrollo y la aplicación de la tecnología de IA.
Dirección del modelo 27B:
https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27B
Dirección del modelo 8B:
https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8B