ByteDance lanza HybridFlow, su arma secreta de código abierto: ¡Entrenamiento de modelos grandes 20 veces más rápido y costos reducidos!

Los modelos lingüísticos grandes (LLM), como GPT y Llama, han revolucionado el campo de la inteligencia artificial. Sin embargo, entrenar eficientemente estos modelos masivos y alinearlos con los valores humanos sigue siendo un desafío.

El aprendizaje por refuerzo con retroalimentación humana (RLHF) es un método importante para entrenar LLM y se ha utilizado ampliamente en los últimos años. Sin embargo, los marcos tradicionales de RLHF tienen limitaciones en flexibilidad, eficiencia y escalabilidad.

Para abordar estos problemas, el equipo de modelos Doubao de ByteDance ha lanzado un marco RLHF de código abierto llamado HybridFlow, que ofrece nuevas posibilidades para el entrenamiento de LLM.

RLHF generalmente comprende tres etapas:

Primero, el modelo actor genera texto según el aviso de entrada; luego, el modelo crítico, el modelo de referencia y el modelo de recompensa evalúan el texto generado y calculan los valores, probabilidades de referencia y recompensas correspondientes;

Finalmente, estos resultados de evaluación se utilizan para entrenar el modelo actor, con el objetivo de generar texto que se ajuste mejor a las preferencias humanas. Los marcos RLHF tradicionales suelen utilizar un único controlador para gestionar todo el flujo de datos, lo que resulta ineficiente para los LLM que requieren computación distribuida.

El marco HybridFlow combina innovadoramente los modos de controlador único y múltiple, y mediante un diseño de API jerárquico, desacopla las complejas relaciones de dependencia de datos y cálculo, logrando así una representación flexible y una ejecución eficiente del flujo de datos RLHF.

Las ventajas principales de HybridFlow se reflejan en tres aspectos:

Soporte flexible para múltiples algoritmos y modelos RLHF: HybridFlow proporciona una API modular que permite a los usuarios implementar y ampliar fácilmente varios algoritmos RLHF, como PPO, ReMax y Safe-RLHF.

Reorganización eficiente de los pesos del modelo: El componente 3D-HybridEngine permite una reorganización eficiente de los pesos del modelo actor durante las etapas de entrenamiento y generación, minimizando la redundancia de memoria y los gastos generales de comunicación.

Implementación y selección de estrategias de paralelismo automatizadas: El componente Auto Mapping puede asignar automáticamente los modelos a diferentes dispositivos y seleccionar la mejor estrategia de paralelismo según la carga del modelo y las dependencias de datos, simplificando así el proceso de implementación del modelo y mejorando la eficiencia del entrenamiento.

Los resultados experimentales muestran que HybridFlow logra un aumento significativo en el rendimiento, hasta 20,57 veces, al ejecutar varios algoritmos RLHF. La publicación de HybridFlow como código abierto proporcionará una herramienta poderosa para la investigación y el desarrollo de RLHF, impulsando el desarrollo futuro de la tecnología LLM.

Enlace al artículo: https://arxiv.org/pdf/2409.19256

Noticias de IA

ByteDance lanza HybridFlow, su arma secreta de código abierto: ¡Entrenamiento de modelos grandes 20 veces más rápido y costos reducidos!

AIbase基地

Noticias de IA relacionadas recomendadas

Aumento explosivo de la eficiencia de los modelos grandes: se publica el código abierto de la tecnología COMET de ByteDance, con una aceleración de 1,7 veces

Arquitectura MLA de DeepSeek: Un nuevo avance en la migración de modelos grandes

Vivo reorganiza y crea nuevo departamento de IA, trasladando el entrenamiento de modelos grandes al lado del cliente

Volcano Engine anuncia código aberto para aplicativos de modelos grandes: Laboratório de aplicativos de modelos grandes lançado para liberar o potencial de inovação da IA