Mistral-Nemo-Instruct-2407
Modelo de linguagem grande que suporta dados multilíngues e de código
Produto ComumProgramaçãoModelo de Linguagem GrandeSuporte Multilíngue
Mistral-Nemo-Instruct-2407 é um modelo de linguagem grande (LLM) treinado em conjunto pela Mistral AI e NVIDIA, sendo uma versão de ajuste fino instrutivo do Mistral-Nemo-Base-2407. Este modelo foi treinado em dados multilíngues e de código, superando significativamente modelos existentes de tamanho similar ou menor. Seus principais recursos incluem: suporte para treinamento em dados multilíngues e de código, janela de contexto de 128k, e serve como alternativa ao Mistral 7B. A arquitetura do modelo inclui 40 camadas, 5120 dimensões, 128 dimensões de cabeças, 1436 dimensões ocultas, 32 cabeças, 8 cabeças kv (GQA), vocabulário de 2^17 (aproximadamente 128k), e embeddings rotacionais (theta=1M). O modelo apresentou excelente desempenho em vários benchmarks, como HellaSwag (0-shot), Winogrande (0-shot) e OpenBookQA (0-shot).
Mistral-Nemo-Instruct-2407 Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44