Modelos de Lenguaje con Recompensa Autónoma

Entrenamiento de modelos de lenguaje con recompensa autónoma

Producto ComúnProductividadModelo de LenguajeRecompensa Autónoma
Este producto es un modelo de lenguaje con recompensa autónoma, entrenado utilizando un LLM como juez y señales de recompensa proporcionadas por el propio modelo. A través de un entrenamiento DPO iterativo, el modelo no solo mejora su capacidad para seguir instrucciones, sino que también genera recompensas de alta calidad. Después de tres iteraciones de ajuste fino, este producto ha superado a muchos sistemas existentes en el ranking AlpacaEval 2.0, incluyendo Claude 2, Gemini Pro y GPT-4 0613. Si bien este trabajo es una investigación preliminar, abre las puertas a la posibilidad de un mejoramiento continuo del modelo en dos aspectos.
Abrir sitio web

Modelos de Lenguaje con Recompensa Autónoma Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

Modelos de Lenguaje con Recompensa Autónoma Tendencia de visitas

Modelos de Lenguaje con Recompensa Autónoma Distribución geográfica de las visitas

Modelos de Lenguaje con Recompensa Autónoma Fuentes de tráfico

Modelos de Lenguaje con Recompensa Autónoma Alternativas