FireRedASR es un modelo de Reconocimiento Automático del Habla (RAH) en mandarín estándar de nivel industrial y código abierto, que emplea una arquitectura integrada de codificador-decodificador y LLM. Incluye dos variantes: FireRedASR-LLM y FireRedASR-AED, diseñadas para necesidades de alto rendimiento y alta eficiencia, respectivamente. El modelo presenta un excelente rendimiento en pruebas de referencia de mandarín estándar, mostrando también un buen desempeño en el reconocimiento de dialectos y de habla inglesa. Es adecuado para aplicaciones industriales que requieren una transcripción de voz a texto eficiente, como asistentes inteligentes y generación de subtítulos para video. El código abierto del modelo facilita su integración y optimización por parte de los desarrolladores.