Im Bereich der Spracherkennung genießt die Entwicklung der chinesischen Spracherkennungstechnologie stetige Aufmerksamkeit. Kürzlich veröffentlichte das FireRed-Team von Xiaohongshu ein brandneues Open-Source-Spracherkennungsmodell – FireRedASR. Dieses auf großen Modellen basierende Spracherkennungssystem erzielte in mehreren Standard-Testsätzen hervorragende Ergebnisse und markiert einen bedeutenden Durchbruch in der chinesischen Spracherkennungstechnologie.
Die Kernkennzahl von FireRedASR ist die Wortfehlerquote (CER). Je niedriger dieser Wert ist, desto besser ist die Erkennungsleistung des Modells. Bei jüngsten öffentlichen Tests erreichte FireRedASR eine CER von 3,05 %, was eine Verbesserung um 8,4 % gegenüber dem bisherigen besten Modell Seed-ASR darstellt. Dieses Ergebnis zeigt die Innovationskraft des FireRed-Teams im Bereich der Spracherkennungstechnologie.
Das FireRedASR-Modell besteht aus zwei Kernstrukturen: FireRedASR-LLM und FireRedASR-AED. Ersteres konzentriert sich auf höchste Genauigkeit bei der Spracherkennung, während letzteres ein gutes Gleichgewicht zwischen Genauigkeit und Inferenz-Effizienz bietet. Das Team stellt Modelle und Inferenzcodes in verschiedenen Größen bereit, um die Anforderungen verschiedener Anwendungsszenarien zu erfüllen.
In verschiedenen alltäglichen Anwendungsszenarien zeigt FireRedASR ebenfalls eine starke Leistung. In einem Testsatz, der aus verschiedenen Quellen wie Kurzvideos, Livestreams und Spracheingaben besteht, reduzierte FireRedASR-LLM die CER gegenüber branchenführenden Anbietern um 23,7 % bis 40 %. Besonders bei der Texterkennung zeigte das Modell eine hervorragende Leistung mit einer relativen Reduzierung der CER um 50,2 % bis 66,7 %.
Darüber hinaus zeigt FireRedASR auch in chinesischen Dialekten und im englischen Sprachraum eine hervorragende Leistung. Die CER auf den Testsätzen KeSpeech und LibriSpeech ist deutlich besser als bei früheren Open-Source-Modellen, was die Robustheit und Anpassungsfähigkeit in verschiedenen Sprachumgebungen belegt.
Das FireRed-Team hofft, durch die Open-Source-Veröffentlichung dieses neuen Modells die Entwicklung und Anwendung der Spracherkennungstechnologie voranzutreiben und einen Beitrag zur Zukunft der Sprachinteraktion zu leisten. Alle Modelle und Codes wurden auf GitHub veröffentlicht. Entwickler und Forscher sind herzlich eingeladen, sich zu beteiligen.
huggingface:https://huggingface.co/FireRedTeam
github:https://github.com/FireRedTeam/FireRedASR
Wichtigste Punkte:
- 🎤 FireRedASR ist ein neu veröffentlichtes Open-Source-Spracherkennungsmodell des Xiaohongshu-Teams mit hervorragender Genauigkeit bei der chinesischen Spracherkennung.
- 🚀 Das Modell besteht aus FireRedASR-LLM und FireRedASR-AED, die jeweils auf Genauigkeit bzw. Effizienz ausgerichtet sind.
- 🌍 FireRedASR zeigt in verschiedenen Szenarien eine hervorragende Leistung und eignet sich für Mandarin, chinesische Dialekte und Englisch.