Das Doubao-Großmodellteam von ByteDance gab kürzlich bekannt, einen wichtigen Engpass in der Architektur von Mixed-Expert-Modellen (MoE) erfolgreich überwunden und eine bedeutende Optimierungstechnologie namens COMET Open Source bereitgestellt zu haben. Diese Technologie verbessert die Trainingseffizienz von großen Modellen deutlich und erzielt eine Effizienzsteigerung um das 1,7-fache bei gleichzeitiger Senkung der Trainingskosten um 40 %.
Bildquelle: Das Bild wurde mit KI generiert und stammt von Midjourney.
Laut Mitteilung wurde die COMET-Technologie bereits im ByteDance-Training mit einem Cluster aus Tausenden von GPUs eingesetzt und hat dabei Millionen von GPU-Stunden an Rechenleistung eingespart. Im Vergleich zu kürzlich von DeepSeek veröffentlichten MoE-Optimierungslösungen wie DualPipe zeichnet sich COMET durch höhere Kompatibilität und Benutzerfreundlichkeit aus. Es lässt sich wie ein Plug-in in bestehende MoE-Trainingsframeworks integrieren, unterstützt branchenübliche große Modelle und erfordert keine invasive Modifikation des Trainingsframeworks.
Technische Daten zeigen, dass durch die Einführung von COMET eine einzelne MoE-Schicht um das 1,96-fache beschleunigt werden kann, die End-to-End-Effizienz durchschnittlich um das 1,71-fache gesteigert wird und eine stabile Leistung unter verschiedenen Parallelisierungsstrategien, Eingangsgrößen und Hardwareumgebungen erzielt wird. Besonders erwähnenswert ist, dass COMET auch mit der DualPipe-Lösung von DeepSeek kombiniert werden kann, um die Modelltrainingskosten weiter deutlich zu reduzieren.
Die Open-Source-Veröffentlichung dieser Technologie stellt zweifellos einen Durchbruch im Bereich der großen Modelle dar und dürfte die Entwicklung und Anwendung großer Modelle beschleunigen.
论文地址:https://arxiv.org/pdf/2502.19811
开源地址:https://github.com/bytedance/flux?continueFlag=c1d74dd2912ab3909a1a27fe4f5cf519