Recientemente, Qafind Labs lanzó su último modelo de IA conversacional, ChatDLM, un avance innovador que ha generado un gran interés en el campo de la inteligencia artificial. ChatDLM es el primer modelo que integra a fondo la "difusión por bloques" (Block Diffusion) y la "mezcla de expertos" (MoE). Alcanza una asombrosa velocidad de inferencia de 2800 tokens/s en GPU y admite una ventana de contexto extremadamente grande de 131.072 tokens, abriendo una nueva era para la generación de documentos a nivel de documento y la conversación en tiempo real.

微信截图_20250428082020.png

El punto clave de ChatDLM radica en su arquitectura tecnológica única. El modelo utiliza 7B parámetros. Gracias a la técnica de difusión por bloques, divide las entradas en grupos, combinando la difusión espacial y el mecanismo de atención entre bloques para mejorar significativamente la velocidad de procesamiento. Además, ChatDLM incorpora la técnica MoE (mezcla de expertos), configurando de 32 a 64 expertos y seleccionando 2 para procesar cada vez. Este mecanismo flexible optimiza aún más el rendimiento del modelo.

Para admitir un contexto extra grande, ChatDLM utiliza la optimización RoPE y la técnica de caché jerárquica, mejorando notablemente su capacidad de memoria. En cuanto a la optimización de la inferencia, ChatDLM utiliza técnicas como la detención temprana dinámica, la precisión mixta BF16 y el particionamiento ZeRO, lo que permite una fácil ampliación a múltiples GPU, mejorando aún más la eficiencia y la escalabilidad del modelo.

En las pruebas de rendimiento, ChatDLM mostró un excelente desempeño en GPU A100, alcanzando un rendimiento de 2800 tokens/s con una longitud de contexto de 131.072 tokens y un promedio de 12 a 25 pasos de iteración. En las pruebas HumanEval (0-shot), ChatDLM alcanzó una precisión del 92,0%; en las pruebas Fill-in-the-Middle, del 84,2%; y en las pruebas ARC-E (0-shot), del 83,9%. Estos datos demuestran su rendimiento excepcional.

De cara al futuro, Qafind Labs planea integrar tecnologías más avanzadas en ChatDLM, incluyendo la iteración adaptativa (Adaptive Iteration), la integración de atención gráfica (Graph-Attention) y la difusión multimodal (Multimodal Diffusion) para mejorar aún más la precisión y el alcance del modelo.

Dirección de prueba: https://www.chatdlm.cn