Mistral-Nemo-Instruct-2407
Modelo de lenguaje grande que admite datos en múltiples idiomas y código
Producto ComúnProgramaciónModelo de lenguaje grandeAdmite múltiples idiomas
Mistral-Nemo-Instruct-2407 es un modelo de lenguaje grande (LLM) entrenado conjuntamente por Mistral AI y NVIDIA, y es una versión de ajuste fino instructivo de Mistral-Nemo-Base-2407. Este modelo se entrenó con datos en múltiples idiomas y código, superando significativamente a los modelos existentes de tamaño similar o menor. Sus características principales incluyen: entrenamiento con datos multilingües y de código, ventana de contexto de 128k, alternativa a Mistral 7B. La arquitectura del modelo incluye 40 capas, 5120 dimensiones, 128 dimensiones de head, 1436 dimensiones ocultas, 32 heads, 8 heads kv (GQA), vocabulario de 2^17 (aproximadamente 128k), incrustaciones rotacionales (theta=1M). El modelo presenta un excelente rendimiento en diversas pruebas de referencia, como HellaSwag (0-shot), Winogrande (0-shot), OpenBookQA (0-shot), etc.
Mistral-Nemo-Instruct-2407 Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44