ReFT
ReFT: Mejora la capacidad de razonamiento de los LLMs
Producto ComúnProductividadInteligencia ArtificialRazonamiento
ReFT es un método simple y efectivo para mejorar la capacidad de razonamiento de los grandes modelos de lenguaje (LLM). Primero, precalienta el modelo mediante el ajuste fino supervisado (SFT), y luego lo ajusta aún más utilizando aprendizaje por refuerzo en línea, concretamente el algoritmo PPO descrito en este documento. ReFT supera significativamente al SFT al muestrear automáticamente un gran número de rutas de razonamiento para una pregunta dada y derivar recompensas naturalmente de las respuestas correctas. El rendimiento de ReFT puede mejorarse aún más combinando estrategias de toma de decisiones durante la inferencia, como la votación por mayoría y la reordenación. Cabe destacar que ReFT logra mejoras aprendiendo de los mismos datos de entrenamiento que el SFT, sin necesidad de datos adicionales o mejorados. Esto indica una mayor capacidad de generalización de ReFT.
ReFT Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44