En el campo del reconocimiento de voz, el desarrollo de la tecnología de reconocimiento de chino ha sido objeto de mucha atención. Recientemente, el equipo FireRed de Xiaohongshu lanzó un nuevo modelo de reconocimiento de voz de código abierto: FireRedASR. Este sistema de reconocimiento de voz basado en modelos grandes ha logrado excelentes resultados en varios conjuntos de pruebas estándar, lo que marca un gran avance en la tecnología de reconocimiento de voz en chino.
El indicador principal de FireRedASR es la tasa de error de caracteres (CER), un indicador que cuanto más bajo sea, mejor será el resultado del modelo. En las pruebas públicas recientes, el CER de FireRedASR alcanzó el 3.05%, una reducción del 8.4% en comparación con el modelo Seed-ASR, el mejor hasta ahora. Este resultado muestra la capacidad de innovación del equipo FireRed en tecnología de reconocimiento de voz.
El modelo FireRedASR se divide en dos estructuras principales: FireRedASR-LLM y FireRedASR-AED. El primero se centra en la precisión extrema del reconocimiento de voz, mientras que el segundo logra un buen equilibrio entre precisión y eficiencia de inferencia. El equipo proporciona modelos e códigos de inferencia de diferentes tamaños para satisfacer las necesidades de diversas aplicaciones.
En múltiples escenarios de aplicación cotidianos, FireRedASR también ha demostrado un rendimiento excepcional. En un conjunto de pruebas compuesto por diversas fuentes como videos cortos, transmisiones en vivo y entrada de voz, el CER de FireRedASR-LLM se redujo entre un 23.7% y un 40% en comparación con los principales proveedores de servicios del sector. Especialmente en escenarios que requieren reconocimiento de letras de canciones, el rendimiento del modelo es particularmente destacado, con una reducción del CER del 50.2% al 66.7%.
Además, FireRedASR también ha demostrado un excelente rendimiento en dialectos chinos y en inglés, superando significativamente a los modelos de código abierto anteriores en los conjuntos de pruebas KeSpeech y LibriSpeech, lo que demuestra su robustez y adaptabilidad en diversos entornos lingüísticos.
El equipo FireRed espera impulsar el desarrollo y la aplicación de la tecnología de reconocimiento de voz mediante la publicación de este nuevo modelo de código abierto, contribuyendo así al futuro de la interacción por voz. Todos los modelos y códigos se han publicado en GitHub, y se anima a más desarrolladores e investigadores a participar.
huggingface:https://huggingface.co/FireRedTeam
github:https://github.com/FireRedTeam/FireRedASR
Puntos clave:
- 🎤 FireRedASR es un nuevo modelo de reconocimiento de voz de código abierto lanzado por el equipo de Xiaohongshu, con un excelente rendimiento en la precisión del reconocimiento en chino.
- 🚀 El modelo se divide en FireRedASR-LLM y FireRedASR-AED, dirigidos a la precisión y la eficiencia, respectivamente.
- 🌍 FireRedASR ofrece un rendimiento excelente en diversas situaciones, siendo adecuado para mandarín, dialectos chinos e inglés, entre otros idiomas.