Nemotron-4-340B-Instruct es un gran modelo de lenguaje (LLM) desarrollado por NVIDIA, optimizado para escenarios de diálogo en inglés, tanto de una como de varias rondas. Este modelo admite una longitud de contexto de 4096 tokens y ha sido sometido a pasos de alineación adicionales, como ajuste fino supervisado (SFT), optimización de preferencias directas (DPO) y optimización de preferencias con recompensa (RPO). El modelo se entrenó con aproximadamente 20.000 datos etiquetados manualmente, y se sintetizó más del 98% de los datos utilizados para el ajuste fino supervisado y el ajuste fino de preferencias mediante un pipeline de generación de datos sintéticos. Esto permite que el modelo tenga un buen desempeño en la preferencia de diálogo humano, el razonamiento matemático, la codificación y el seguimiento de instrucciones, y que pueda generar datos sintéticos de alta calidad para diversos casos de uso.