Gestern Abend gab Meta die Open-Source-Veröffentlichung seines neuesten großen Sprachmodells Llama 3.1 405B bekannt. Diese wichtige Nachricht markiert den Abschluss eines einjährigen, sorgfältig geplanten Prozesses, von der Projektplanung bis zur endgültigen Prüfung, der die Llama 3-Modellreihe endlich der Öffentlichkeit zugänglich macht.
Llama 3.1 405B ist ein mehrsprachiges Werkzeugmodell mit 128 Milliarden Parametern. Das Modell wurde nach einem Pretraining mit einer Kontextlänge von 8K durch ein kontinuierliches Training mit einer Kontextlänge von 128K weiterentwickelt. Laut Meta ist die Leistung dieses Modells in mehreren Aufgaben mit der des branchenführenden GPT-4 vergleichbar.
Im Vergleich zu früheren Llama-Modellen hat Meta mehrere Verbesserungen vorgenommen:
- Verbesserte Vorverarbeitung und Kuratierung der Pretraining-Daten
- Verbesserte Qualitätssicherung und Auswahlmethoden für die Trainingsdaten
Das Pretraining des 405B-Modells war eine enorme Herausforderung, die 15,6 Billionen Token und 3,8 x 10^25 Gleitkommaoperationen umfasste. Dafür hat Meta die gesamte Trainingsarchitektur optimiert und über 16.000 H100-GPUs eingesetzt.
Um das groß angelegte produktive Inferencing des 405B-Modells zu unterstützen, hat Meta es von 16 Bit (BF16) auf 8 Bit (FP8) quantisiert, wodurch der Rechenbedarf deutlich reduziert wurde und das Modell auch auf einzelnen Serverknoten ausgeführt werden kann.
Darüber hinaus hat Meta die Qualität der nachträglichen Schulung der 70B- und 8B-Modelle mithilfe des 405B-Modells verbessert. In der Nachtrainingsphase hat das Team das Chat-Modell durch mehrstufige Ausrichtungsprozesse verfeinert, darunter überwachtes Feintuning (SFT), Rejection Sampling und direkte Präferenzoptimierung. Bemerkenswert ist, dass die meisten SFT-Beispiele mit synthetischen Daten generiert wurden.
Llama 3 integriert auch Bild-, Video- und Sprachfunktionen. Eine kombinierte Methode ermöglicht es dem Modell, Bilder und Videos zu erkennen und Sprachinteraktionen zu unterstützen. Diese Funktionen befinden sich jedoch noch in der Entwicklung und wurden noch nicht offiziell veröffentlicht.
Meta hat auch die Lizenzvereinbarung aktualisiert und erlaubt Entwicklern nun, die Ausgaben von Llama-Modellen zur Verbesserung anderer Modelle zu verwenden.
Die Forscher von Meta erklären: „Es ist unglaublich inspirierend, mit den besten Köpfen der Branche an der Spitze der KI-Forschung zu arbeiten und unsere Forschungsergebnisse offen und transparent zu veröffentlichen. Wir freuen uns darauf, die Innovationen zu sehen, die durch das Open-Source-Modell entstehen, und das Potenzial zukünftiger Llama-Modelle zu erkunden!“
Diese Open-Source-Initiative wird dem KI-Bereich zweifellos neue Chancen und Herausforderungen bieten und die Weiterentwicklung der Technologie großer Sprachmodelle vorantreiben.