Los modelos lingüísticos grandes (LLM), como GPT y Llama, han revolucionado el campo de la inteligencia artificial. Sin embargo, entrenar eficientemente estos modelos masivos y alinearlos con los valores humanos sigue siendo un desafío.

El aprendizaje por refuerzo con retroalimentación humana (RLHF) es un método importante para entrenar LLM y se ha utilizado ampliamente en los últimos años. Sin embargo, los marcos tradicionales de RLHF tienen limitaciones en flexibilidad, eficiencia y escalabilidad.

image.png

Para abordar estos problemas, el equipo de modelos Doubao de ByteDance ha lanzado un marco RLHF de código abierto llamado HybridFlow, que ofrece nuevas posibilidades para el entrenamiento de LLM.

RLHF generalmente comprende tres etapas:

Primero, el modelo actor genera texto según el aviso de entrada; luego, el modelo crítico, el modelo de referencia y el modelo de recompensa evalúan el texto generado y calculan los valores, probabilidades de referencia y recompensas correspondientes;

image.png

Finalmente, estos resultados de evaluación se utilizan para entrenar el modelo actor, con el objetivo de generar texto que se ajuste mejor a las preferencias humanas. Los marcos RLHF tradicionales suelen utilizar un único controlador para gestionar todo el flujo de datos, lo que resulta ineficiente para los LLM que requieren computación distribuida.

El marco HybridFlow combina innovadoramente los modos de controlador único y múltiple, y mediante un diseño de API jerárquico, desacopla las complejas relaciones de dependencia de datos y cálculo, logrando así una representación flexible y una ejecución eficiente del flujo de datos RLHF.

image.png

Las ventajas principales de HybridFlow se reflejan en tres aspectos:

Soporte flexible para múltiples algoritmos y modelos RLHF: HybridFlow proporciona una API modular que permite a los usuarios implementar y ampliar fácilmente varios algoritmos RLHF, como PPO, ReMax y Safe-RLHF.

Reorganización eficiente de los pesos del modelo: El componente 3D-HybridEngine permite una reorganización eficiente de los pesos del modelo actor durante las etapas de entrenamiento y generación, minimizando la redundancia de memoria y los gastos generales de comunicación.

Implementación y selección de estrategias de paralelismo automatizadas: El componente Auto Mapping puede asignar automáticamente los modelos a diferentes dispositivos y seleccionar la mejor estrategia de paralelismo según la carga del modelo y las dependencias de datos, simplificando así el proceso de implementación del modelo y mejorando la eficiencia del entrenamiento.

Los resultados experimentales muestran que HybridFlow logra un aumento significativo en el rendimiento, hasta 20,57 veces, al ejecutar varios algoritmos RLHF. La publicación de HybridFlow como código abierto proporcionará una herramienta poderosa para la investigación y el desarrollo de RLHF, impulsando el desarrollo futuro de la tecnología LLM.

Enlace al artículo: https://arxiv.org/pdf/2409.19256