Das US-amerikanische Startup Useful Sensors hat ein Open-Source-Spracherkennungsmodell namens Moonshine vorgestellt. Moonshine wurde entwickelt, um Audiodaten effizienter zu verarbeiten und ist im Vergleich zu OpenAIs Whisper ressourcenschonender und fünfmal schneller. Dieses neue Modell ist speziell für Echtzeitanwendungen auf Geräten mit begrenzten Ressourcen konzipiert und zeichnet sich durch seine flexible Architektur aus.
Im Gegensatz zu Whisper, das Audio in feste 30-Sekunden-Segmente unterteilt, passt Moonshine die Verarbeitungszeit an die tatsächliche Länge des Audios an. Dies ermöglicht eine hervorragende Leistung bei der Verarbeitung kürzerer Audiosegmente und reduziert den Verarbeitungsaufwand durch Null-Padding.
Moonshine gibt es in zwei Versionen: eine kleine „Tiny“-Version mit 27,1 Millionen Parametern und eine größere „Base“-Version mit 61,5 Millionen Parametern. Zum Vergleich: Die vergleichbaren Modelle von OpenAI haben mehr Parameter – Whisper tiny.en hat 37,8 Millionen und base.en 72,6 Millionen.
Tests zeigen, dass das Tiny-Modell von Moonshine bei vergleichbarer Genauigkeit wie Whisper weniger Rechenressourcen verbraucht. In verschiedenen Audio- und Hintergrundgeräusch-Szenarien weisen beide Moonshine-Versionen eine niedrigere Wortfehlerquote (WER) als Whisper auf und zeigen eine starke Leistung.
Das Forschungsteam weist darauf hin, dass Moonshine bei der Verarbeitung extrem kurzer Audiosegmente (unter einer Sekunde) noch Verbesserungspotenzial hat. Diese kurzen Audiosegmente sind im Trainingsdatensatz unterrepräsentiert, und eine Erweiterung des Trainings mit solchen Segmenten könnte die Leistung des Modells verbessern.
Darüber hinaus ermöglicht die Offline-Fähigkeit von Moonshine neue Anwendungsszenarien, die bisher aufgrund von Hardwarebeschränkungen nicht möglich waren. Im Gegensatz zu dem ressourcenintensiven Whisper eignet sich Moonshine für den Einsatz auf Smartphones und kleinen Geräten wie dem Raspberry Pi. Useful Sensors entwickelt mit Moonshine seinen spanisch-englischen Übersetzer Torre.
Der Code von Moonshine wurde auf GitHub veröffentlicht. Die Benutzer sollten beachten, dass AI-Transkriptionssysteme wie Whisper Fehler enthalten können. Einige Studien zeigen, dass Whisper mit einer Wahrscheinlichkeit von 1,4 % Falschinformationen generiert, wobei die Fehlerquote bei Personen mit Sprachbehinderungen höher ist.
Projektseite: https://github.com/usefulsensors/moonshine
Highlights:
🌟 Moonshine ist ein Open-Source-Spracherkennungsmodell, das fünfmal schneller ist als OpenAIs Whisper.
🔍 Das Modell passt die Verarbeitungszeit an die Länge des Audios an und ist besonders gut für kurze Audiosegmente geeignet.
🖥️ Moonshine kann offline betrieben werden und ist für Geräte mit begrenzten Ressourcen geeignet.