Recientemente, un equipo de investigación de Google DeepMind, en colaboración con varias universidades, ha propuesto un nuevo método llamado Modelo de Recompensa Generativo (GenRM), diseñado para mejorar la precisión y fiabilidad de la IA generativa en tareas de razonamiento.

La IA generativa se utiliza ampliamente en diversos campos, como el procesamiento del lenguaje natural, principalmente generando texto coherente prediciendo la siguiente palabra en una secuencia de vocabulario. Sin embargo, estos modelos a veces producen información errónea con confianza, lo cual representa un gran problema, especialmente en áreas como la educación, las finanzas y la medicina, donde la precisión es crucial.

image.png

Actualmente, los investigadores han probado diferentes soluciones para abordar las dificultades de precisión en la salida de los modelos de IA generativa. Entre ellas, los Modelos de Recompensa Discriminativos (RMs) se utilizan para juzgar la corrección de las respuestas potenciales según una puntuación, pero este método no aprovecha al máximo la capacidad generativa de los grandes modelos de lenguaje (LLMs). Otro método común es utilizar un "LLM como evaluador", pero su eficacia en tareas de razonamiento complejas suele ser inferior a la de un validador profesional.

image.png

La innovación de GenRM radica en redefinir el proceso de validación como una tarea de predicción de la siguiente palabra. A diferencia de los modelos de recompensa discriminativos tradicionales, GenRM integra la capacidad de generación de texto de los LLMs en el proceso de validación, permitiendo que el modelo genere y evalúe simultáneamente soluciones potenciales. Además, GenRM admite el razonamiento en cadena (CoT), es decir, el modelo puede generar pasos de razonamiento intermedios antes de llegar a una conclusión final, haciendo el proceso de validación más completo y sistemático.

Al combinar la generación y la validación, GenRM utiliza una estrategia de entrenamiento unificada que permite al modelo mejorar simultáneamente sus capacidades de generación y validación durante el entrenamiento. En la práctica, el modelo genera pasos de razonamiento intermedios que se utilizan para validar la respuesta final.

Los investigadores descubrieron que el modelo GenRM mostró un rendimiento excelente en varias pruebas rigurosas, como en tareas de resolución de problemas matemáticos preescolares y algoritmos, donde la precisión de GenRM aumentó significativamente. En comparación con los modelos de recompensa discriminativos y el método de "LLM como evaluador", la tasa de éxito en la resolución de problemas de GenRM aumentó entre un 16% y un 64%.

Por ejemplo, al validar la salida del modelo Gemini1.0Pro, GenRM aumentó la tasa de éxito en la resolución de problemas del 73% al 92.8%.

image.png

El lanzamiento del método GenRM representa un gran avance en el campo de la IA generativa, ya que la unificación del proceso de generación y validación de soluciones mejora significativamente la precisión y la fiabilidad de las soluciones generadas por la IA.

Puntos clave:

1. 🌟 GenRM mejora la capacidad de razonamiento de la IA generativa al redefinir el proceso de validación como una tarea de predicción de la siguiente palabra.

2. 📈 GenRM mostró un rendimiento excelente en múltiples pruebas, con una precisión entre un 16% y un 64% mayor que los métodos tradicionales.

3. 🧠 Este método integra la generación y la validación, mejorando el potencial de aplicación de la IA en áreas de alto riesgo.