Mistral-Nemo-Instruct-2407

Modelo de lenguaje grande que admite datos en múltiples idiomas y código

Producto ComúnProgramaciónModelo de lenguaje grandeAdmite múltiples idiomas
Mistral-Nemo-Instruct-2407 es un modelo de lenguaje grande (LLM) entrenado conjuntamente por Mistral AI y NVIDIA, y es una versión de ajuste fino instructivo de Mistral-Nemo-Base-2407. Este modelo se entrenó con datos en múltiples idiomas y código, superando significativamente a los modelos existentes de tamaño similar o menor. Sus características principales incluyen: entrenamiento con datos multilingües y de código, ventana de contexto de 128k, alternativa a Mistral 7B. La arquitectura del modelo incluye 40 capas, 5120 dimensiones, 128 dimensiones de head, 1436 dimensiones ocultas, 32 heads, 8 heads kv (GQA), vocabulario de 2^17 (aproximadamente 128k), incrustaciones rotacionales (theta=1M). El modelo presenta un excelente rendimiento en diversas pruebas de referencia, como HellaSwag (0-shot), Winogrande (0-shot), OpenBookQA (0-shot), etc.
Abrir sitio web

Mistral-Nemo-Instruct-2407 Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

Mistral-Nemo-Instruct-2407 Tendencia de visitas

Mistral-Nemo-Instruct-2407 Distribución geográfica de las visitas

Mistral-Nemo-Instruct-2407 Fuentes de tráfico

Mistral-Nemo-Instruct-2407 Alternativas