Yuan2.0-M32
Hochleistungsfähiges Mixed-Expert-Aufmerksamkeits-Routing-Sprachmodell
Normales ProduktProgrammierungMixed-ExpertAufmerksamkeits-Routing
Yuan2.0-M32 ist ein Mixed-Expert (MoE)-Sprachmodell mit 32 Experten, von denen 2 aktiv sind. Es wird ein neues Routing-Netzwerk – Aufmerksamkeits-Routing – vorgestellt, um die Expertenauswahl effizienter zu gestalten und die Genauigkeit um 3,8 % zu steigern. Das Modell wurde von Grund auf neu trainiert und verwendete 2000 Milliarden Token. Der Trainingsaufwand beträgt nur 9,25 % des Aufwands eines gleich großen dichten Modells. Es zeigt Wettbewerbsfähigkeit in den Bereichen Codierung, Mathematik und verschiedenen Fachgebieten und verwendet nur 3,7 Milliarden aktive Parameter. Der Vorwärtsberechnungsaufwand pro Token beträgt nur 7,4 GFLOPS, nur 1/19 des Bedarfs von Llama3-70B. Bei den Benchmarks MATH und ARC-Challenge übertrifft es Llama3-70B mit Genauigkeiten von 55,9 % bzw. 95,8 %.
Yuan2.0-M32 Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44