Dans le domaine de la reconnaissance vocale, le développement de la technologie de reconnaissance du chinois a toujours suscité un vif intérêt. Récemment, l'équipe FireRed de Xiaohongshu a publié un nouveau modèle de reconnaissance vocale open source : FireRedASR. Ce système de reconnaissance vocale basé sur un grand modèle a obtenu d'excellents résultats sur plusieurs ensembles de tests standard, marquant une avancée majeure dans la technologie de reconnaissance vocale chinoise.
L'indicateur principal de FireRedASR est le taux d'erreur de caractères (CER). Plus cet indicateur est bas, meilleurs sont les résultats de reconnaissance du modèle. Lors de récents tests publics, le CER de FireRedASR a atteint 3,05 %, soit une baisse de 8,4 % par rapport au meilleur modèle précédent, Seed-ASR. Ce résultat témoigne de l'innovation de l'équipe FireRed dans le domaine de la reconnaissance vocale.
Le modèle FireRedASR se décline en deux structures principales : FireRedASR-LLM et FireRedASR-AED. Le premier se concentre sur une précision extrême de la reconnaissance vocale, tandis que le second offre un excellent équilibre entre précision et efficacité d'inférence. L'équipe fournit des modèles et des codes d'inférence de différentes tailles pour répondre aux besoins de divers scénarios d'application.
Dans de nombreux scénarios d'application courants, FireRedASR a également démontré de solides performances. Dans un ensemble de tests composé de sources diverses telles que les courtes vidéos, les diffusions en direct et la saisie vocale, le CER de FireRedASR-LLM a diminué de 23,7 % à 40 % par rapport aux principaux fournisseurs de services du secteur. Il est particulièrement performant dans les scénarios nécessitant la reconnaissance de paroles, avec une réduction relative du CER de 50,2 % à 66,7 %.
De plus, FireRedASR a obtenu d'excellents résultats dans les scénarios utilisant des dialectes chinois et l'anglais. Son CER sur les ensembles de tests KeSpeech et LibriSpeech est nettement supérieur à celui des modèles open source précédents, ce qui prouve sa robustesse et son adaptabilité dans différents contextes linguistiques.
L'équipe FireRed espère que la publication en open source de ce nouveau modèle permettra de faire progresser et de développer les applications de la technologie de reconnaissance vocale, et de contribuer à l'avenir de l'interaction vocale. Tous les modèles et codes sont disponibles publiquement sur GitHub, et l'équipe encourage les développeurs et les chercheurs à y participer.
huggingface : https://huggingface.co/FireRedTeam
github : https://github.com/FireRedTeam/FireRedASR
Points clés :
- 🎤 FireRedASR est un nouveau modèle de reconnaissance vocale open source publié par l'équipe Xiaohongshu, offrant une excellente précision de reconnaissance du chinois.
- 🚀 Le modèle se décline en deux versions : FireRedASR-LLM et FireRedASR-AED, respectivement axées sur la précision et l'efficacité.
- 🌍 FireRedASR offre d'excellentes performances dans divers scénarios, et est adapté au mandarin, aux dialectes chinois et à l'anglais.