El equipo de investigación de Google DeepMind ha logrado un gran avance recientemente, desarrollando una innovadora tecnología llamada SCoRe (Self-Correction through Reinforcement Learning, autocorrección mediante aprendizaje por refuerzo). Esta tecnología está diseñada para abordar el desafío de larga data de la dificultad de los modelos de lenguaje grandes (LLM) para autocorregirse, identificando y corrigiendo errores sin depender de múltiples modelos o verificación externa.
El núcleo de la tecnología SCoRe radica en su método de dos fases. La primera fase optimiza la inicialización del modelo para que pueda generar una corrección en un segundo intento, manteniendo al mismo tiempo la similitud de la respuesta inicial con el modelo base. La segunda fase utiliza un aprendizaje por refuerzo multietapa para enseñar al modelo cómo mejorar sus primera y segunda respuestas. Lo único de este método es que solo utiliza datos de entrenamiento autogenerados; el modelo crea sus propios ejemplos resolviendo problemas e intentando mejorar sus soluciones.
En las pruebas reales, SCoRe mostró una mejora de rendimiento significativa. Las pruebas realizadas con los modelos Gemini 1.0 Pro y 1.5 Flash de Google mostraron una mejora del 15,6% en la capacidad de autocorrección en tareas de razonamiento matemático en el benchmark MATH. En la tarea de generación de código de HumanEval, el rendimiento mejoró un 9,1%. Estos resultados indican que SCoRe ha logrado un progreso sustancial en la mejora de la capacidad de autocorrección de los modelos de IA.
Los investigadores destacan que SCoRe es el primer método que logra una autocorrección interna positiva significativa, permitiendo que el modelo mejore sus respuestas sin retroalimentación externa. Sin embargo, la versión actual de SCoRe solo realiza una ronda de entrenamiento de autocorrección; futuras investigaciones podrían explorar la posibilidad de múltiples pasos de corrección.
Esta investigación del equipo de DeepMind revela una idea importante: enseñar metaestrategias como la autocorrección requiere ir más allá de los métodos de entrenamiento estándar de los modelos de lenguaje. El aprendizaje por refuerzo multietapa abre nuevas posibilidades en el campo de la IA, con la promesa de impulsar el desarrollo de sistemas de IA más inteligentes y fiables.
Esta tecnología innovadora no solo demuestra el potencial de la automejora de la IA, sino que también ofrece nuevas ideas para abordar los problemas de fiabilidad y precisión de los modelos de lenguaje grandes, lo que podría tener un profundo impacto en el desarrollo de las aplicaciones de IA futuras.