Na área de reconhecimento de voz, o desenvolvimento tecnológico do reconhecimento de chinês tem sido foco de atenção. Recentemente, a equipe FireRed do Xiaohongshu lançou um novo modelo de reconhecimento de voz de código aberto - FireRedASR. Este sistema de reconhecimento de voz baseado em grandes modelos alcançou resultados excelentes em vários conjuntos de testes padrão, marcando um grande avanço na tecnologia de reconhecimento de voz em chinês.
O principal indicador do FireRedASR é a taxa de erro de caracteres (CER), quanto menor o indicador, melhor o efeito de reconhecimento do modelo. Em testes públicos recentes, o CER do FireRedASR atingiu 3,05%, uma redução de 8,4% em comparação com o modelo anterior Seed-ASR. Este resultado demonstra a capacidade de inovação da equipe FireRed em tecnologia de reconhecimento de voz.
O modelo FireRedASR é dividido em duas estruturas principais: FireRedASR-LLM e FireRedASR-AED. O primeiro concentra-se na precisão extrema do reconhecimento de voz, enquanto o último busca um bom equilíbrio entre precisão e eficiência de inferência. A equipe fornece modelos e códigos de inferência de diferentes escalas para atender às necessidades de vários cenários de aplicação.
Em vários cenários de aplicação diária, o FireRedASR também demonstrou um desempenho poderoso. Em um conjunto de testes composto por várias fontes, como vídeos curtos, transmissões ao vivo e entrada de voz, o CER do FireRedASR-LLM foi reduzido em 23,7% a 40% em comparação com os principais fornecedores de serviços do setor. Especialmente em cenários que exigem reconhecimento de letras de músicas, o desempenho do modelo foi particularmente notável, com uma redução relativa de CER de 50,2% a 66,7%.
Além disso, o FireRedASR também apresentou excelente desempenho em cenários de dialetos chineses e inglês, com seu CER nos conjuntos de testes KeSpeech e LibriSpeech significativamente superior aos modelos de código aberto anteriores, demonstrando sua robustez e adaptabilidade em vários ambientes linguísticos.
A equipe FireRed espera, através do código aberto deste novo modelo, impulsionar o desenvolvimento e a aplicação da tecnologia de reconhecimento de voz, contribuindo para o futuro da interação de voz. Todos os modelos e códigos foram disponibilizados publicamente no GitHub, incentivando mais desenvolvedores e pesquisadores a participarem.
huggingface:https://huggingface.co/FireRedTeam
github:https://github.com/FireRedTeam/FireRedASR
Destaques:
- 🎤 FireRedASR é um novo modelo de reconhecimento de voz de código aberto lançado pela equipe Xiaohongshu, com excelente precisão de reconhecimento em chinês.
- 🚀 O modelo é dividido em FireRedASR-LLM e FireRedASR-AED, direcionados respectivamente para precisão e eficiência.
- 🌍 FireRedASR apresenta excelente desempenho em vários cenários, adequado para mandarim, dialetos chineses e inglês.