Modelos de Lenguaje con Recompensa Autónoma
Entrenamiento de modelos de lenguaje con recompensa autónoma
Producto ComúnProductividadModelo de LenguajeRecompensa Autónoma
Este producto es un modelo de lenguaje con recompensa autónoma, entrenado utilizando un LLM como juez y señales de recompensa proporcionadas por el propio modelo. A través de un entrenamiento DPO iterativo, el modelo no solo mejora su capacidad para seguir instrucciones, sino que también genera recompensas de alta calidad. Después de tres iteraciones de ajuste fino, este producto ha superado a muchos sistemas existentes en el ranking AlpacaEval 2.0, incluyendo Claude 2, Gemini Pro y GPT-4 0613. Si bien este trabajo es una investigación preliminar, abre las puertas a la posibilidad de un mejoramiento continuo del modelo en dos aspectos.
Modelos de Lenguaje con Recompensa Autónoma Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44