Flux 是由字节跳动开发的一个高性能通信重叠库,专为 GPU 上的张量和专家并行设计。它通过高效的内核和对 PyTorch 的兼容性,支持多种并行化策略,适用于大规模模型训练和推理。Flux 的主要优点包括高性能、易于集成和对多种 NVIDIA GPU 架构的支持。它在大规模分布式训练中表现出色,尤其是在 Mixture-of-Experts (MoE) 模型中,能够显著提高计算效率。