Récemment, Moore Threads a annoncé la publication en open source de son grand modèle de compréhension audio, MooER (摩耳). Il s'agit du premier grand modèle linguistique open source basé sur un GPU entièrement chinois pour l'entraînement et l'inférence, démontrant les dernières avancées de Moore Threads dans le domaine de l'intelligence artificielle.

Le grand modèle MooER, entraîné sur la plateforme de calcul intelligent KuAE (夸娥) de Moore Threads, a nécessité seulement 38 heures pour traiter 5000 heures de données audio et d'étiquettes pseudo-supervisées. Ce succès est dû à la combinaison d'algorithmes innovants développés en interne et de ressources de calcul hautement performantes. MooER prend en charge la reconnaissance vocale en chinois et en anglais, ainsi que la traduction vocale chinois-anglais, affichant d'excellentes performances dans plusieurs ensembles de tests de reconnaissance vocale. Notamment, dans l'ensemble de tests de traduction chinois-anglais Covost2, MooER-5K a obtenu un score BLEU de 25,2, proche des performances industrielles.

微信截图_20240826083635.png

L'équipe IA de Moore Threads a publié en open source le code d'inférence et le modèle entraîné sur 5000 heures de données, et prévoit de publier prochainement le code d'entraînement et le modèle entraîné sur 80 000 heures de données. L'architecture de MooER comprend trois parties : un encodeur, un adaptateur et un décodeur. Elle utilise l'encodeur vocal open source Paraformer et le grand modèle linguistique Qwen2-7B-instruct pour initialiser l'encodeur et le module LLM.

En comparaison avec d'autres modèles open source, MooER-5K affiche de meilleures performances sur les ensembles de tests chinois et anglais. Grâce à ce projet open source, Moore Threads offre une précieuse référence et un soutien aux développeurs disposant de ressources de données et de calcul limitées.

GitHub :https://github.com/MooreThreads/MooER