La startup américaine Useful Sensors a lancé Moonshine, un modèle de reconnaissance vocale open source. Conçu pour traiter les données audio plus efficacement, Moonshine est plus économe en ressources informatiques que Whisper d'OpenAI, avec une vitesse de traitement cinq fois supérieure. Ce nouveau modèle, doté d'une architecture flexible, est spécialement conçu pour les applications en temps réel sur des matériels aux ressources limitées.

image.png

Contrairement à Whisper qui divise l'audio en segments fixes de 30 secondes, Moonshine adapte le temps de traitement à la durée réelle de l'audio. Cela le rend particulièrement performant pour les courts segments audio, réduisant les surcoûts de traitement liés au padding.

Moonshine existe en deux versions : une version Tiny (petite) avec 27,1 millions de paramètres et une version Base (grande) avec 61,5 millions de paramètres. À titre de comparaison, les modèles équivalents d'OpenAI sont plus volumineux : Whisper tiny.en compte 37,8 millions de paramètres et base.en 72,6 millions.

image.png

Les tests montrent que le modèle Tiny de Moonshine offre une précision comparable à celle de Whisper, tout en consommant moins de ressources informatiques. Dans diverses conditions de niveau audio et de bruit de fond, les deux versions de Moonshine affichent un taux d'erreur de mots (WER) inférieur à celui de Whisper, démontrant ainsi de solides performances.

L'équipe de recherche souligne que Moonshine peut encore être amélioré pour le traitement de très courts segments audio (moins d'une seconde). Ces segments étant sous-représentés dans les données d'entraînement, une augmentation de leur nombre pourrait améliorer les performances du modèle.

De plus, la capacité hors ligne de Moonshine ouvre de nouvelles perspectives d'application. Des applications auparavant impossibles en raison de limitations matérielles sont désormais réalisables. Contrairement à Whisper, qui nécessite une puissance de calcul importante, Moonshine est adapté aux smartphones et aux petits appareils (comme les Raspberry Pi). Useful Sensors utilise actuellement Moonshine pour développer son traducteur anglais-espagnol Torre.

Le code de Moonshine est disponible sur GitHub. Il est important de noter que, comme Whisper, les systèmes de transcription IA peuvent faire des erreurs. Certaines études montrent que Whisper a une probabilité de 1,4 % de générer de fausses informations, avec un taux d'erreur plus élevé pour les personnes ayant des troubles du langage.

Lien du projet : https://github.com/usefulsensors/moonshine

Points clés :

🌟 Moonshine est un modèle de reconnaissance vocale open source cinq fois plus rapide que Whisper d'OpenAI.

🔍 Ce modèle adapte son temps de traitement à la durée de l'audio, ce qui le rend idéal pour les courts segments audio.

🖥️ Moonshine fonctionne hors ligne et est adapté aux appareils disposant de ressources limitées.