ReFT

ReFT: Mejora la capacidad de razonamiento de los LLMs

Producto ComúnProductividadInteligencia ArtificialRazonamiento
ReFT es un método simple y efectivo para mejorar la capacidad de razonamiento de los grandes modelos de lenguaje (LLM). Primero, precalienta el modelo mediante el ajuste fino supervisado (SFT), y luego lo ajusta aún más utilizando aprendizaje por refuerzo en línea, concretamente el algoritmo PPO descrito en este documento. ReFT supera significativamente al SFT al muestrear automáticamente un gran número de rutas de razonamiento para una pregunta dada y derivar recompensas naturalmente de las respuestas correctas. El rendimiento de ReFT puede mejorarse aún más combinando estrategias de toma de decisiones durante la inferencia, como la votación por mayoría y la reordenación. Cabe destacar que ReFT logra mejoras aprendiendo de los mismos datos de entrenamiento que el SFT, sin necesidad de datos adicionales o mejorados. Esto indica una mayor capacidad de generalización de ReFT.
Abrir sitio web

ReFT Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

ReFT Tendencia de visitas

ReFT Distribución geográfica de las visitas

ReFT Fuentes de tráfico

ReFT Alternativas