Mistral-Nemo-Base-2407
Modelo de lenguaje grande de 12B parámetros
Producto ComúnProgramaciónModelo de lenguaje grandeGeneración de texto
Mistral-Nemo-Base-2407 es un modelo de lenguaje grande de 12B parámetros preentrenado para la generación de texto, desarrollado conjuntamente por Mistral AI y NVIDIA. Entrenado con datos multilingües y de código, supera significativamente a modelos existentes de tamaño similar o inferior. Sus principales características incluyen: licencia Apache 2.0, disponibilidad de versiones preentrenada e instructiva, ventana de contexto de 128k, soporte para múltiples lenguajes y datos de código, y sirve como alternativa a Mistral 7B. Su arquitectura comprende 40 capas, 5120 dimensiones, 128 dimensiones de cabezales, 14364 dimensiones ocultas, 32 cabezales, 8 cabezales kv (GQA), un vocabulario de aproximadamente 128k y embeddings rotacionales (theta=1M). El modelo ha demostrado un excelente rendimiento en varias pruebas de referencia, como HellaSwag, Winogrande y OpenBookQA.
Mistral-Nemo-Base-2407 Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44