O Nemotron-4-340B-Instruct é um grande modelo de linguagem (LLM) desenvolvido pela NVIDIA, otimizado para cenários de diálogo inglês, tanto em turnos únicos como múltiplos. O modelo suporta um comprimento de contexto de 4096 tokens e passou por etapas adicionais de alinhamento, incluindo ajuste fino supervisionado (SFT), otimização de preferência direta (DPO) e otimização de preferência sensível a recompensas (RPO). Com base em aproximadamente 20 mil dados anotados manualmente, o modelo utilizou um pipeline de geração de dados sintéticos para criar mais de 98% dos dados usados para o ajuste fino supervisionado e o ajuste fino de preferência. Isso resultou em um modelo com bom desempenho em preferências de diálogo humano, raciocínio matemático, codificação e seguimento de instruções, além da capacidade de gerar dados sintéticos de alta qualidade para diversos casos de uso.