Vor kurzem gab Moore Threads die offizielle Open-Source-Veröffentlichung seines entwickelten großen Sprachmodells für Audioverständnis – MooER (摩耳) – bekannt. Dieses branchenweit erste große Open-Source-Sprachmodell, das auf einer inländischen All-in-One-GPU trainiert und inferenziert wurde, demonstriert die neuesten Erfolge von Moore Threads im Bereich der Künstlichen Intelligenz.
Das MooER-Sprachmodell wurde auf der Moore Threads Kuae (KUAE) KI-Rechenplattform trainiert und benötigte lediglich 38 Stunden, um 5000 Stunden an Audiodaten und Pseudo-Labels zu verarbeiten. Dieser Erfolg ist der Kombination aus selbstentwickelten innovativen Algorithmen und hocheffizienten Rechenressourcen zu verdanken. MooER unterstützt nicht nur die Spracherkennung in Chinesisch und Englisch, sondern bietet auch die Möglichkeit der Sprachübersetzung zwischen Chinesisch und Englisch. In mehreren Testsätzen zur Spracherkennung zeigte es herausragende Leistungen. Insbesondere im Covost2-Testsatz für die chinesisch-englische Übersetzung erzielte MooER-5K einen BLEU-Score von 25,2 und erreichte damit fast industrielle Qualität.
Das Moore Threads AI-Team hat den Inferenzcode und das auf 5000 Stunden Daten trainierte Modell als Open Source veröffentlicht und plant, in Zukunft auch den Trainingscode und das auf 80.000 Stunden Daten trainierte Modell zu veröffentlichen. Die Modellstruktur von MooER besteht aus drei Teilen: Encoder, Adapter und Decoder. Dabei werden der Open-Source-Paraformer-Sprachcodierer und das große Sprachmodell Qwen2-7B-instruct verwendet, um den Encoder und das LLM-Modul zu initialisieren.
Im Vergleich zu anderen Open-Source-Modellen schneidet MooER-5K sowohl in chinesischen als auch englischen Testsätzen besser ab. Mit diesem Open-Source-Projekt bietet Moore Threads Entwicklern mit begrenzten Daten- und Rechenressourcen wertvolle Referenzmaterialien und Unterstützung.
GitHub:https://github.com/MooreThreads/MooER