DiffRhythm es un modelo innovador de generación musical que utiliza la técnica de difusión latente para lograr una generación de canciones completas rápida y de alta calidad. Esta tecnología supera las limitaciones de los métodos tradicionales de generación musical; no necesita una arquitectura multietapa compleja ni una preparación de datos engorrosa. Solo necesita la letra y las indicaciones de estilo para generar en poco tiempo canciones completas de hasta 4 minutos y 45 segundos. Su estructura no autorregresiva garantiza una velocidad de inferencia rápida, lo que mejora enormemente la eficiencia y la escalabilidad de la creación musical. Este modelo ha sido desarrollado conjuntamente por el grupo de procesamiento de audio, voz y lenguaje (ASLP@NPU) de la Universidad Tecnológica del Noroeste y el Instituto de Big Data de la Universidad China de Hong Kong (Shenzhen), con el objetivo de ofrecer una solución sencilla, eficiente y creativa para la creación musical.