Der Artikel analysiert detailliert den Rechenleistungsbedarf von großen Sprachmodellen mit Billionen Parametern. Am Beispiel des von Inspur selbst entwickelten chinesischen großen Sprachmodells Yuan 1.0, das 266 Server mit jeweils 8 A100-Grafikkarten verwendet und eine Einzelkarten-Recheneffizienz von 44 % erreicht, wird die dreidimensionale Parallelisierungsstrategie mit Tensor-Parallelisierung, Pipeline-Parallelisierung und Daten-Parallelisierung erläutert. Der Artikel argumentiert, dass zur Verbesserung der Leistung großer Sprachmodelle Optimierungen auf mehreren Ebenen erforderlich sind, darunter Framework, E/A und Kommunikation. Im Vergleich zu GPT-4 besteht bei inländischen großen Sprachmodellen noch eine erhebliche Lücke in Bezug auf Rechenleistung, Algorithmen und Daten. Es ist notwendig, die Forschungs- und Entwicklungsanstrengungen weiter zu verstärken, um die Leistung großer Sprachmodelle zu verbessern.