La société israélienne d'intelligence artificielle aiOla a récemment réalisé une percée majeure dans le domaine de la reconnaissance vocale, en lançant un modèle de reconnaissance vocale open source appelé Whisper Medusa. Ce nouveau modèle est 50% plus rapide que le modèle Whisper d'OpenAI, suscitant un vif intérêt de l'industrie.

L'innovation principale de Whisper Medusa réside dans son architecture améliorée. aiOla a modifié l'architecture originale de Whisper en introduisant un mécanisme d'attention multi-têtes. Ce mécanisme permet au modèle d'utiliser simultanément plusieurs "têtes d'attention", en se concentrant sur des informations provenant de différents sous-espaces de représentation. Cette innovation permet au modèle de prédire dix jetons à la fois, au lieu d'un seul jeton à la fois comme c'est traditionnellement le cas, améliorant ainsi considérablement la vitesse de prédiction vocale et le temps d'exécution de la génération.

QQ截图20240807091000.png

Il est important de noter que Whisper Medusa n'a pas sacrifié les performances pour gagner en vitesse. Cela est dû au fait que son système principal repose toujours sur Whisper, garantissant ainsi la précision et la stabilité du modèle. Pendant l'entraînement, aiOla a utilisé une méthode d'apprentissage automatique dite faiblement supervisée. Plus précisément, ils ont gelé les principaux composants de Whisper et utilisé les transcriptions audio générées par le modèle comme étiquettes pour entraîner d'autres modules de prédiction de jetons. Cette méthode d'entraînement innovante a encore amélioré l'efficacité et la précision de l'apprentissage du modèle.

QQ截图20240807091013.png

La publication en open source de Whisper Medusa pourrait avoir un impact profond sur le développement de la technologie de reconnaissance vocale. Il fournit non seulement aux chercheurs et aux développeurs un nouvel outil puissant, mais pourrait également stimuler le développement d'applications de traitement vocal plus rapides et plus efficaces. Dans le contexte de la demande croissante d'interactions vocales, cette percée technologique ouvrira sans aucun doute de nouvelles possibilités pour l'application de l'intelligence artificielle dans le domaine de la reconnaissance vocale.

Avec le lancement de Whisper Medusa, nous pouvons nous attendre à voir de nombreuses applications innovantes basées sur ce modèle, des assistants intelligents à la traduction en temps réel, en passant par les systèmes de contrôle vocal, qui pourraient tous bénéficier d'une amélioration significative des performances. Cette avancée marque non seulement une étape importante dans la technologie de reconnaissance vocale, mais dessine également un avenir plus efficace et plus fluide pour l'interaction entre l'intelligence artificielle et les humains.

Adresse du projet : https://github.com/aiola-lab/whisper-medusa

Huggingface : https://huggingface.co/aiola/whisper-medusa-v1