Mistral-Nemo-Base-2407
Großes Sprachmodell mit 12 Milliarden Parametern
Normales ProduktProgrammierungGroßes SprachmodellTextgenerierung
Mistral-Nemo-Base-2407 ist ein von Mistral AI und NVIDIA gemeinsam trainiertes, großes, vorab trainiertes Textgenerierungsmodell mit 12 Milliarden Parametern. Das Modell wurde mit mehrsprachigen und Code-Daten trainiert und übertrifft deutlich bestehende Modelle gleicher oder kleinerer Größe. Zu seinen Hauptmerkmalen gehören: Veröffentlichung unter der Apache 2.0 Lizenz, Unterstützung von vorab trainierten und instruierten Versionen, Training mit einem Kontextfenster von 128k, Unterstützung verschiedener Sprachen und Code-Daten, sowie die Funktion als Alternative zu Mistral 7B. Die Modellarchitektur umfasst 40 Schichten, 5120 Dimensionen, 128 Kopfdimensionen, 14364 versteckte Dimensionen, 32 Köpfe, 8 kv-Köpfe (GQA), einen Wortschatz von ca. 128k und Rotations-Einbettungen (theta=1M). Das Modell erzielte in mehreren Benchmarks hervorragende Ergebnisse, wie z. B. bei HellaSwag, Winogrande und OpenBookQA.
Mistral-Nemo-Base-2407 Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44