Kürzlich veröffentlichte das Ling-Team der Ant Group auf der Preprint-Plattform Arxiv einen technischen Artikel mit dem Titel „Jeder FLOP zählt: Skalierung eines 300-Milliarden-Parameter-Mix-of-Experts-LING-Großmodells ohne High-End-GPUs“. Der Artikel beschreibt die Entwicklung zweier neuer großer Sprachmodelle: Ling-Lite (leichtgewichtige Version) und Ling-Plus (erweiterte Version). Diese Modelle zeichnen sich durch mehrere innovative Designmerkmale aus, die ein effizientes Training auf Hardware mit niedriger Leistung ermöglichen und die Kosten deutlich senken.
Ling-Lite hat 16,8 Milliarden Parameter, davon 2,75 Milliarden Aktivierungsparameter. Das Basismodell der erweiterten Version verfügt über beeindruckende 290 Milliarden Parameter mit 28,8 Milliarden Aktivierungsparametern. Beide Modelle erreichen branchenführende Leistungsniveaus. Besonders die erweiterte Version mit ihrem 300-Milliarden-Parameter-MoE-Modell erzielt auf Geräten mit Low-End-GPUs chinesischer Hersteller vergleichbare Ergebnisse wie Modelle mit High-End-Nvidia-Chips.
Bildquelle: Das Bild wurde mit KI generiert, Bildrechte liegen bei Midjourney.
Normalerweise erfordert das Training von MoE-Modellen teure High-Performance-GPUs wie Nvidias H100 und H800. Dies ist nicht nur kostspielig, sondern auch durch den Chipmangel eingeschränkt, was die Anwendung in ressourcenbeschränkten Umgebungen behindert. Daher hat das Ling-Team der Ant Group ein neues Ziel formuliert: die Skalierung von Modellen „ohne High-End-GPUs“. Sie haben damit die Grenzen von Ressourcen und Budget überwunden. Ihre innovative Trainingsstrategie umfasst eine dynamische Parameterzuweisung, ein Mixed-Precision-Scheduling und einen verbesserten Mechanismus zur Behandlung von Trainingsausnahmen. Diese Strategien verkürzen die Unterbrechungszeit effektiv und optimieren den Modellbewertungsprozess, wodurch der Validierungszyklus um über 50 % reduziert wird.
Im Experiment trainierte das Ling-Team Ling-Plus mit 9 Billionen Tokens. Die Ergebnisse zeigen, dass das Training von 1 Billion Tokens mit High-Performance-Hardware etwa 6,35 Millionen RMB kostet. Mit der optimierten Methode von Ant Group sinken die Kosten für das Training auf Low-End-Hardware auf etwa 5,08 Millionen RMB, was eine Einsparung von fast 20 % bedeutet. Gleichzeitig ist die Leistung vergleichbar mit Alibabas Tongyi Qwen2.5-72B-Instruct und DeepSeek-V2.5-1210-Chat.
Wenn dieses technologische Ergebnis breite Anwendung findet, wird es kostengünstige und effiziente Lösungen für chinesische Großmodelle bieten, die Abhängigkeit von Nvidia-Chips reduzieren und neue Wege für die zukünftige Entwicklung der künstlichen Intelligenz eröffnen.