Geely Automobile a récemment réalisé une percée majeure dans le domaine de la synthèse vocale. Son modèle HAM-TTS, développé en interne, a surpassé le modèle de référence VALL-E, suscitant un vif intérêt de l'industrie. Ce modèle d'IA, baptisé "Xing Rui", a montré une amélioration significative en termes de précision de prononciation, de naturel et de similarité avec la voix du locuteur.

Le modèle HAM-TTS utilise une technique de modélisation acoustique hiérarchique basée sur les jetons et fonctionnant en zéro-shot pour la conversion texte-parole. Il améliore considérablement l'expérience utilisateur dans les cockpits intelligents. Avec les mêmes 400 millions de paramètres, le taux d'erreur de caractères du modèle HAM-TTS est inférieur de 1,5 % à celui de VALL-E ; et avec 800 millions de paramètres (version complète), cette réduction atteint même 2,3 %. Le modèle HAM-TTS a également enregistré une amélioration notable de 10 % en termes de cohérence stylistique, de cohérence du ton et de score global.

QQ20240924-101224.jpg

Les avantages du modèle Xing Rui ne se limitent pas à ses performances. Son utilité est également impressionnante. Il assure la stabilité de la voix du locuteur dans diverses situations, telles que l'interaction avec des avatars virtuels, la navigation vocale et les bulletins d'information, et adapte intelligemment le ton, l'intonation, les pauses et les émotions en fonction du contexte. Il est également capable de basculer entre différentes langues, y compris les dialectes et les langues étrangères, et ne nécessite que 3 secondes d'échantillon pour reproduire une voix, ce qui est bien meilleur que les 10 secondes ou plus généralement nécessaires dans l'industrie.

image.png

L'équipe Geely a innové en introduisant une modélisation acoustique hiérarchique pour améliorer les performances du modèle. Ils ont résolu le problème de la prononciation imprécise et ont introduit un prédicteur de séquence de variables d'espace latent et un aligneur de texte pour une correspondance plus précise entre le texte et le son, ce qui rend la synthèse vocale plus naturelle et fluide.

Cette percée démontre non seulement les capacités de recherche et développement de Geely en matière de technologies intelligentes, mais aussi son ambition dans le domaine de l'IA. Le système de modèles d'IA Xing Rui de Geely s'étend désormais à plusieurs directions, notamment les modèles multimodaux et les modèles linguistiques, jetant ainsi les bases des technologies automobiles intelligentes. Parallèlement, la puissance de calcul globale du cloud de Geely est passée de 81 à 102 milliards de milliards d'opérations par seconde, témoignant de ses investissements continus dans la technologie.

Après le succès initial de l'électrification, cette percée de Geely dans le domaine de l'intelligence artificielle offre de nouvelles pistes et possibilités pour l'avenir de l'industrie automobile. Cela redéfinit notre perception des constructeurs automobiles traditionnels et laisse présager que l'intelligence artificielle deviendra un domaine de compétition clé dans l'industrie automobile de demain.

Adresse de l'article : https://arxiv.org/pdf/2403.05989