Deepseek ha anunciado hoy su segundo producto de la semana de código abierto: DeepEP, la primera biblioteca de comunicación EP de código abierto para modelos MoE, que admite la optimización de pila completa para el entrenamiento y la inferencia de modelos de expertos mixtos.

DeepEP es una biblioteca de comunicación eficiente diseñada específicamente para expertos mixtos (MoE) y procesamiento paralelo de expertos (EP). Se centra en proporcionar un alto rendimiento y baja latencia para núcleos de GPU de muchos a muchos, comúnmente conocidos como programación y combinación MoE.

QQ_1740452301668.png

DeepEP no solo admite operaciones de baja precisión como FP8, sino que también es consistente con el algoritmo de puerta de restricción de grupo propuesto en el artículo DeepSeek-V3, optimizando los núcleos de reenvío de ancho de banda de dominio asimétrico, como el reenvío de datos desde el dominio NVLink al dominio RDMA. Estos núcleos tienen un alto rendimiento y son ideales para tareas de prellenado de entrenamiento e inferencia, y permiten controlar la cantidad de procesadores de flujo.

QQ_1740452534008.png

Para tareas de decodificación de inferencia sensibles a la latencia, DeepEP también incluye un conjunto de núcleos de baja latencia que utilizan RDMA puro para minimizar la latencia. Además, DeepEP introduce un método de superposición de comunicación-cálculo basado en ganchos que no consume recursos de procesador de flujo.

En las pruebas de rendimiento, DeepEP se probó en varias pruebas en tarjetas de red RDMA H800 y CX7 InfiniBand 400 Gb/s. Las pruebas mostraron que los núcleos normales tenían un excelente rendimiento de ancho de banda tanto en nodos internos como en nodos cruzados, mientras que los núcleos de baja latencia alcanzaron el rendimiento esperado tanto en latencia como en ancho de banda. Específicamente, los núcleos de baja latencia tenían una latencia de 163 microsegundos y un ancho de banda de 46 GB/s al procesar 8 expertos.

DeepEP está completamente probado y es principalmente compatible con redes InfiniBand, pero teóricamente también puede funcionar en Ethernet convergente (RoCE). Para evitar interferencias entre diferentes tipos de tráfico, se recomienda aislar el tráfico en diferentes canales virtuales para garantizar que los núcleos normales y los núcleos de baja latencia no interfieran entre sí.

DeepEP es una herramienta importante que proporciona una solución de comunicación eficiente para modelos de expertos mixtos, con características notables como rendimiento optimizado, baja latencia y configuración flexible.

Enlace al proyecto:https://x.com/deepseek_ai/status/1894211757604049133

Puntos clave:

🌟 DeepEP está diseñado para modelos de expertos mixtos y proporciona soluciones de comunicación de alto rendimiento y baja latencia.

⚙️ Admite varias operaciones de baja precisión y optimiza el rendimiento del ancho de banda de transferencia de datos.

💡 DeepEP ha sido probado y verificado, es compatible con redes InfiniBand y es adecuado para el aislamiento y la gestión de diferentes tipos de tráfico.