Moles Technology hat kürzlich die Open-Source-Veröffentlichung seines großen Sprachmodells für Audioverständnis MooER (摩耳) angekündigt. Es ist das erste branchenweit verfügbare, große Open-Source-Sprachmodell, das auf einer vollständig in China entwickelten GPU trainiert und ausgeführt wird. MooER unterstützt nicht nur die Spracherkennung in Mandarin und Englisch, sondern bietet auch die Übersetzung von Mandarin nach Englisch und demonstriert damit seine leistungsstarken mehrsprachigen Fähigkeiten.
MooER verwendet eine innovative dreiteilige Modellstruktur, bestehend aus Encoder, Adapter und Decoder (Large Language Model, LLM). Dieses Design ermöglicht es dem Modell, Roh-Audiodaten effektiv zu verarbeiten, Merkmale zu extrahieren und Downstream-Aufgaben wie Spracherkennung und -übersetzung durchzuführen. Das Projektteam hat bereits den Inferenzcode und ein auf 5000 Stunden Daten trainiertes Modell veröffentlicht und plant, in Zukunft auch den Trainingscode und eine verbesserte Version des Modells, trainiert auf 80.000 Stunden Daten, zu veröffentlichen.
In Vergleichstests mit mehreren bekannten Open-Source-Modellen für Audioverständnis zeigte MooER-5K eine hervorragende Leistung. Im Mandarin-Test erreichte es eine Zeichenfehlerquote (CER) von 4,21 %, im englischen Test eine Wortfehlerquote (WER) von 17,98 %. Dies ist vergleichbar oder sogar besser als die Ergebnisse anderer Top-Modelle. Besonders hervorzuheben ist die BLEU-Punktzahl von 25,2 im Covost2zh2en-Test für die Mandarin-Englisch-Übersetzung, die MooER deutlich vor anderen Open-Source-Modellen positioniert und ein Niveau erreicht, das mit industriellen Anwendungen vergleichbar ist.
Noch vielversprechender ist das auf 80.000 Stunden Daten trainierte MooER-80k-Modell, das eine noch höhere Leistung zeigt. Die CER im Mandarin-Test sank auf 3,50 %, die WER im englischen Test auf 12,66 %, was ein enormes Entwicklungspotenzial aufzeigt.
Die Open-Source-Veröffentlichung von MooER durch Moles Technology demonstriert nicht nur die Leistungsfähigkeit chinesischer GPUs im Bereich KI, sondern belebt auch die globale Entwicklung der Audio-KI-Technologie. Mit der Veröffentlichung weiterer Trainingsdaten und Codes erwartet die Branche von MooER weitere bahnbrechende Fortschritte in den Bereichen Spracherkennung und -übersetzung, um die Verbreitung und innovative Anwendung von Audio-KI-Technologien voranzutreiben.
Adresse:https://arxiv.org/pdf/2408.05101