Llama3-70B-SteerLM-RM
Modelo de recompensas multifacético de 70 mil millones de parámetros
Producto ComúnProgramaciónIAModelo de lenguaje
Llama3-70B-SteerLM-RM es un modelo de lenguaje de 70 mil millones de parámetros, que funciona como un modelo de predicción de atributos, un modelo de recompensas multifacético que califica las respuestas del modelo en múltiples aspectos, en lugar de una sola puntuación como en los modelos de recompensas tradicionales. Este modelo se entrenó con el conjunto de datos HelpSteer2 y mediante NVIDIA NeMo-Aligner, un kit de herramientas escalable para el alineamiento de modelos eficiente y eficaz.
Llama3-70B-SteerLM-RM Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44