Erfreulicherweise gibt es Neuigkeiten aus der Open-Source-Community: Das Shanghai AI Lab-Team hat das Projekt LLaMA-O1 veröffentlicht, mit dem Ziel, OpenAIs mathematisches Wunderwerk O1 zu replizieren. Das Projekt nutzt verschiedene fortschrittliche Technologien, darunter Monte-Carlo-Baumsuche, Self-Play-Verstärkungslernen, PPO und das duale Strategiemuster von AlphaGo Zero, was in der Entwickler-Community großes Interesse geweckt hat.

image.png

Schon vor der Veröffentlichung der O1-Serie von OpenAI erforschte das Shanghai AI Lab-Team die Verwendung der Monte-Carlo-Baumsuche zur Verbesserung der mathematischen Fähigkeiten großer Sprachmodelle. Nach der Veröffentlichung von O1 verbesserte das Team den Algorithmus weiter, konzentrierte sich auf mathematische Olympiadeaufgaben und entwickelte ihn als Open-Source-Version des OpenAI-„Erdbeer“-Projekts.

Um die Leistung des LLaMA-Modells bei mathematischen Olympiadeaufgaben zu verbessern, verwendete das Team eine paarweise Optimierungsstrategie. Anstatt die absolute Punktzahl einer Antwort zu bewerten, verglich es die relative Güte zweier Antworten. Mit dieser Methode erzielten sie bemerkenswerte Fortschritte beim schwierigen AIME2024-Benchmark-Test. Von 30 Aufgaben löste das optimierte Modell 8 richtig, während das Original-LLaMA-3.1-8B-Instruct-Modell nur 2 Aufgaben richtig löste. Dieses Ergebnis übertrifft alle anderen kommerziellen Closed-Source-Lösungen außer O1-Preview und O1-Mini.

image.png

Ende Oktober gab das Team bedeutende Fortschritte bei der Replikation von OpenAI O1 auf Basis der AlphaGo Zero-Architektur bekannt. Es gelang ihnen, dem Modell durch Interaktion mit dem Suchbaum während des Lernprozesses fortgeschrittene Denkfähigkeiten zu verleihen, ohne dass manuelle Annotationen erforderlich waren. Innerhalb einer Woche wurde das Projekt Open Source.

Derzeit umfasst der Open-Source-Anteil von LLaMA-O1: vortrainierte Datensätze, vortrainierte Modelle und den Code für das Verstärkungslernen. Der Datensatz „OpenLongCoT-Pretrain“ enthält über 100.000 Datensätze mit langen Denkketten. Jeder Datensatz umfasst einen vollständigen mathematischen Problemlösungsprozess, einschließlich Überlegungen, Bewertungsergebnissen, Problembeschreibung, grafischen Koordinaten, Berechnungen, Schlussfolgerungen und Kritik und Validierung der einzelnen Schritte, um den Lösungsprozess zu bewerten und zu leiten. Durch das weitere Vortraining auf diesem Datensatz kann das Modell wie O1 lange Denkketten lesen und ausgeben.

image.png

Obwohl der Projektname LLaMA-O1 lautet, basiert das derzeit vom offiziellen Team bereitgestellte vortrainierte Modell auf Googles Gemma2. Auf Basis des vortrainierten Modells können Entwickler ein weiteres Verstärkungslernen durchführen. Der Trainingsprozess umfasst: Selbstspiel mit Monte-Carlo-Baumsuche zur Generierung von Erfahrungen; Speichern der Erfahrungen in einem Prioritätserfahrungs-Wiedergabepuffer; Stichprobenziehung von Batch-Daten aus dem Puffer zum Training; Aktualisierung von Modellparametern und Erfahrungsprioritäten. Der Trainingscode verwendet auch einige Schlüsseltechnologien, darunter LoRA für eine parametereffiziente Feinabstimmung, den PPO-Algorithmus als Strategieoptimierungsmethode, den GAE-Algorithmus zur Berechnung der Vorteilfunktion und die priorisierte Erfahrungswiedergabe zur Steigerung der Trainingseffizienz.

Bemerkenswert ist, dass der LLaMA-O1-Code unter dem GitHub-Account SimpleBerry veröffentlicht wurde, einem Account ohne detaillierte Beschreibung, der recht geheimnisvoll wirkt. Aus anderen mit SimpleBerry verbundenen Accounts und Website-Informationen lässt sich nur schließen, dass es sich um ein Forschungslabor handelt, ohne dass weitere Informationen über die Forschungsrichtung bekannt sind.

Neben LLaMA-O1 ist ein weiteres öffentlich bekannt gewordenes O1-Replikations-Projekt O1-Journey vom Team der Shanghai Jiao Tong Universität. Das Team veröffentlichte Anfang Oktober einen ersten Fortschrittsbericht, der das innovative Journey Learning-Paradigma und das erste Modell vorstellte, das erfolgreich Suche und Lernen in die mathematische Argumentation integriert. Das O1-Journey-Kernentwicklungsteam besteht hauptsächlich aus Studenten im dritten und vierten Jahr der Shanghai Jiao Tong Universität und Doktoranden im ersten Jahr des GAIR-Labors (Generative AI Research Laboratory) der Universität. Zu den betreuenden Professoren gehören der außerordentliche Professor Liu Pengfei, der Yao-Klasse-Absolvent und Sloan-Preisträger Li Yuanzhi.

论文地址:https://arxiv.org/pdf/2410.02884

https://arxiv.org/pdf/2406.07394