Qwen1.5-MoE-A2.7B ist ein großes MoE-Sprachmodell (Mixture of Experts) mit nur 2,7 Milliarden aktivierten Parametern, das jedoch eine vergleichbare Leistung wie Modelle mit 7 Milliarden Parametern bietet. Im Vergleich zu traditionellen großen Sprachmodellen reduziert dieses Modell die Trainingskosten um 75 % und erhöht die Inferenzgeschwindigkeit um das 1,74-fache. Durch eine spezielle MoE-Architektur mit feinkörnigen Experten, neuen Initialisierungsmethoden und Routing-Mechanismen wird die Effizienz des Modells erheblich gesteigert. Das Modell kann für verschiedene Aufgaben im Bereich der Verarbeitung natürlicher Sprache und der Codegenerierung eingesetzt werden.