ChatGPT-Äquivalentes Modell mit nur 8% der Rechenleistung trainiert

Wissenschaftler haben mithilfe des weltweit leistungsstärksten Supercomputers ein ChatGPT-ähnliches Sprachmodell trainiert – und das mit nur 8% seiner Rechenkapazität. Dieser Durchbruch gelang dem Oak Ridge National Laboratory. Das Forschungsteam setzte innovative Techniken ein, um auf dem Frontier-Supercomputer ein Sprachmodell mit einer Billion Parametern zu trainieren.

Durch verteiltes Training und parallele Verarbeitung wurde eine Skalierungseffizienz von 100% erreicht. Die Ausbildung großer Sprachmodelle stellt jedoch weiterhin Herausforderungen dar, insbesondere im Hinblick auf Speicherprobleme.

Die Forschung liefert wertvolle Erkenntnisse für das zukünftige Training noch größerer Sprachmodelle und unterstreicht die entscheidende Rolle von verteiltem Training und Parallelrechnen.