Das Forschungsteam von Nous Research hat der Technologiebranche kürzlich eine aufregende Neuigkeit präsentiert: einen neuen Optimierer namens DisTrO (Distributed Internet Training). Diese Technologie bedeutet, dass leistungsstarke KI-Modelle nicht länger nur Großkonzernen vorbehalten sind, sondern auch Einzelpersonen die Möglichkeit haben, diese effizient auf ihren Heimcomputern zu trainieren.
Das Besondere an DisTrO ist seine Fähigkeit, die Datenmenge, die zwischen mehreren Grafikprozessoren (GPUs) beim Training von KI-Modellen übertragen werden muss, deutlich zu reduzieren. Dank dieser Innovation können leistungsstarke KI-Modelle unter normalen Netzwerkbedingungen trainiert werden. Sogar eine weltweite Zusammenarbeit von Einzelpersonen und Institutionen zur gemeinsamen Entwicklung von KI-Technologien wird dadurch ermöglicht.
Laut der technischen Arbeit von Nous Research ist die Effizienzsteigerung von DisTrO erstaunlich. Die Trainingsgeschwindigkeit ist im Vergleich zu einem gängigen Algorithmus – All-Reduce – um das 857-fache gestiegen, während die pro Trainingsschritt zu übertragende Datenmenge von 74,4 GB auf 86,8 MB reduziert wurde. Diese Verbesserung macht das Training nicht nur schneller und günstiger, sondern ermöglicht auch mehr Menschen die Teilnahme an diesem Bereich.
Nous Research erklärte auf seinen Social-Media-Kanälen, dass Forscher und Institutionen dank DisTrO nicht mehr von einem einzigen Unternehmen abhängig sind, um den Trainingsprozess zu verwalten und zu kontrollieren. Dies bietet ihnen mehr Freiheit für Innovationen und Experimente. Dieses offene Wettbewerbsumfeld fördert den technischen Fortschritt und kommt letztendlich der gesamten Gesellschaft zugute.
Der Hardwarebedarf beim KI-Training ist oft abschreckend. Hochleistungs-Nvidia-GPUs sind in der heutigen Zeit immer knapper und teurer geworden, und nur finanzstarke Unternehmen können sich diese Trainingskosten leisten. Nous Research verfolgt jedoch einen völlig anderen Ansatz: Sie möchten das Training von KI-Modellen kostengünstig für die Öffentlichkeit zugänglich machen und so mehr Menschen die Teilnahme ermöglichen.
DisTrO funktioniert, indem es den Bedarf an vollständiger Gradientensynchronisierung zwischen GPUs reduziert und so die Kommunikationskosten um vier bis fünf Größenordnungen senkt. Diese Innovation ermöglicht das Training von KI-Modellen auch bei langsameren Internetverbindungen. Die bei vielen Haushalten verfügbaren Geschwindigkeiten von 100 Mbps Download und 10 Mbps Upload sind ausreichend.
In ersten Tests mit Metas Llama2-Sprachmodell zeigte DisTrO vergleichbare Trainingsergebnisse wie herkömmliche Methoden, reduzierte aber den Kommunikationsaufwand deutlich. Die Forscher gaben an, dass zwar bisher nur kleinere Modelle getestet wurden, sie aber vermuten, dass der Kommunikationsbedarf mit zunehmender Modellgröße noch stärker sinken könnte – sogar um das 1000- bis 3000-fache.
Es ist wichtig zu beachten, dass DisTrO zwar das Training flexibler macht, aber immer noch auf GPUs angewiesen ist. Diese GPUs müssen jedoch nicht mehr am selben Ort konzentriert sein, sondern können weltweit verteilt sein und über das normale Internet zusammenarbeiten. Bei strengen Tests mit 32 H100-GPUs erreichte DisTrO eine vergleichbare Konvergenzgeschwindigkeit wie die traditionelle AdamW+All-Reduce-Methode, reduzierte aber den Kommunikationsbedarf erheblich.
DisTrO eignet sich nicht nur für große Sprachmodelle, sondern möglicherweise auch für das Training anderer KI-Typen wie Bildgenerierungsmodelle. Die zukünftigen Anwendungsmöglichkeiten sind vielversprechend. Durch die Steigerung der Trainingseffizienz kann DisTrO auch die Umweltbelastung des KI-Trainings reduzieren, da es die vorhandene Infrastruktur optimiert und den Bedarf an großen Rechenzentren senkt.
Mit DisTrO hat Nous Research nicht nur den technischen Fortschritt im KI-Training vorangetrieben, sondern auch ein offeneres und flexibleres Forschungssystem geschaffen, das ungeahnte Möglichkeiten für die zukünftige KI-Entwicklung eröffnet.