Im schnelllebigen Bereich der generativen KI führt das Nous Research-Team ein einzigartiges Experiment durch: Sie nutzen weltweit verteilte Maschinen, um ein großes Sprachmodell (LLM) mit 1,5 Milliarden Parametern vorzutrainieren. Dieser Prozess vermeidet die traditionell notwendige zentrale Entwicklung in teuren und energieintensiven Rechenzentren oder Superclustern.

image.png

Nous Research streamt diesen Vortrainingsprozess auch auf seiner speziellen Website distro.nousresearch.com. Dort werden die Ergebnisse des Modells auf verschiedenen Bewertungsmaßstäben in Echtzeit angezeigt, und eine Karte zeigt die Standorte der an der Schulung beteiligten Hardware in den USA und Europa. Zum Zeitpunkt der Veröffentlichung verbleiben noch ca. 57 Stunden (d.h. 2,3 Tage) des Vortrainings, wobei der Fortschritt bereits über 75 % beträgt.

Das Vortraining ist der erste und grundlegendste Schritt beim Training eines LLMs. Es beinhaltet das Trainieren mit großen Mengen an Textdaten, um die statistischen Eigenschaften und die Struktur der Sprache zu erlernen. In dieser Phase erfasst das Modell durch die Verarbeitung umfangreicher Textdatensätze Muster, Grammatik und kontextuelle Beziehungen zwischen Wörtern. Dieser Prozess ermöglicht dem Modell ein umfassendes Sprachverständnis, die Generierung kohärenter Texte und die Ausführung verschiedener sprachbezogener Aufgaben. Nach dem Vortraining muss das Modell noch für spezifische Aufgaben oder Bereiche feinabgestimmt werden.

Wenn dieser Plan gelingt, wird Nous Research beweisen, dass auch ohne teure Supercluster oder latenzarme Übertragung ein hochmodernes LLM trainiert werden kann. Dies wäre ein neuer Meilenstein im Bereich des verteilten KI-Trainings. Diese Open-Source-Trainingsmethode könnte die Kräfteverhältnisse im Bereich der generativen KI verändern und kleineren Teams und nicht-kommerziellen Akteuren mehr Wettbewerbsfähigkeit verleihen.

Die von Nous verwendete neue Technologie heißt Nous DisTrO (Distributed Training Over-the-Internet) und zielt darauf ab, den Bedarf an Kommunikationsbandbreite zwischen GPUs während des Vortrainings zu reduzieren. Laut der neuesten Veröffentlichung von Nous Research kann DisTrO den Kommunikationsbedarf um bis zu 10.000 Mal reduzieren, so dass auch bei langsameren und kostengünstigeren Internetverbindungen eine wettbewerbsfähige Konvergenzrate und Verlustkurve erzielt werden kann.

Der Kern der DisTrO-Innovation liegt in der effektiven Komprimierung der zwischen GPUs ausgetauschten Datenmenge, ohne die Leistung des Modells zu beeinträchtigen. Diese Technologie baut auf dem früheren DeMo-Algorithmus (Decoupled Momentum) auf, der ebenfalls darauf abzielt, den Kommunikationsbedarf zwischen GPUs deutlich zu reduzieren und gleichzeitig die Trainingsleistung zu erhalten.

Auf der Hardwareseite wird das Vortraining von Nous Research von mehreren bekannten Partnern unterstützt, darunter Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud und Andromeda Cluster. Diese stellen die benötigte heterogene Hardware bereit und testen die Fähigkeiten von DisTrO in einer realen verteilten Umgebung umfassend.

Blog-Eintrag: https://nousresearch.com/

Wichtigste Punkte:

🌐 Nous Research führt ein weltweit verteiltes KI-Training durch, um ein großes Sprachmodell mit 1,5 Milliarden Parametern vorzutrainieren.

💻 Mit der Nous DisTrO-Technologie wird der Bedarf an Kommunikationsbandbreite zwischen GPUs deutlich reduziert, was ein kostengünstiges Training ermöglicht.

🤝 Das Projekt wird von mehreren Hardware-Anbietern unterstützt und fördert den Fortschritt in der verteilten KI-Forschung.