Große Sprachmodelle (LLMs) wie GPT und Llama haben eine Revolution im Bereich der Künstlichen Intelligenz ausgelöst. Die effiziente Schulung dieser riesigen Modelle und ihre Ausrichtung an menschlichen Werten bleiben jedoch eine Herausforderung.
Verstärkendes Lernen mit menschlicher Rückmeldung (RLHF) hat sich als wichtige Methode zur LLM-Schulung etabliert und wird in den letzten Jahren weit verbreitet eingesetzt. Traditionelle RLHF-Frameworks weisen jedoch Einschränkungen in Bezug auf Flexibilität, Effizienz und Skalierbarkeit auf.
Um diese Probleme zu lösen, hat das ByteDance Doubao-Großmodellteam das RLHF-Framework HybridFlow open source veröffentlicht und damit neue Möglichkeiten für die LLM-Schulung geschaffen.
RLHF umfasst in der Regel drei Phasen:
Zuerst generiert das Actor-Modell Text basierend auf der gegebenen Eingabeaufforderung; dann bewerten das Critic-Modell, das Referenzmodell und das Reward-Modell den generierten Text und berechnen den entsprechenden Wert, die Referenzwahrscheinlichkeit und den Reward-Wert;
Schließlich wird das Actor-Modell anhand dieser Bewertungsergebnisse trainiert, um Text zu generieren, der den menschlichen Präferenzen besser entspricht. Traditionelle RLHF-Frameworks verwenden in der Regel einen einzigen Controller, um den gesamten Datenfluss zu verwalten. Dies ist jedoch für LLMs, die verteilte Berechnungen benötigen, ineffizient.
Das HybridFlow-Framework kombiniert innovativ den Einzel- und den Mehr-Controller-Modus und entkoppelt durch ein hierarchisches API-Design komplexe Berechnungen und Datenabhängigkeiten. Dies ermöglicht eine flexible Darstellung und effiziente Ausführung des RLHF-Datenstroms.
Die Vorteile von HybridFlow liegen hauptsächlich in folgenden drei Bereichen:
Flexible Unterstützung verschiedener RLHF-Algorithmen und -Modelle: HybridFlow bietet eine modulare API, mit der Benutzer verschiedene RLHF-Algorithmen wie PPO, ReMax und Safe-RLHF einfach implementieren und erweitern können.
Effiziente Modellgewichtsreorganisation: Die 3D-HybridEngine-Komponente unterstützt die effiziente Reorganisation von Modellgewichten im Actor-Modell während der Trainings- und Generierungsphasen, um Speicherredundanz und Kommunikationsaufwand zu minimieren.
Automatische Modellbereitstellung und parallele Strategieauswahl: Die Auto-Mapping-Komponente kann Modelle basierend auf der Modelllast und Datenabhängigkeiten automatisch verschiedenen Geräten zuordnen und die optimale Parallelisierungsstrategie auswählen. Dies vereinfacht den Modellbereitstellungsprozess und verbessert die Trainingseffizienz.
Experimentelle Ergebnisse zeigen, dass HybridFlow bei der Ausführung verschiedener RLHF-Algorithmen eine deutliche Steigerung des Durchsatzes erzielt, bis zu 20,57-fach. Die Open-Source-Veröffentlichung von HybridFlow wird der RLHF-Forschung und -Entwicklung ein leistungsstarkes Werkzeug zur Verfügung stellen und die zukünftige Entwicklung der LLM-Technologie vorantreiben.
论文地址:https://arxiv.org/pdf/2409.19256