Produit par Tencent ! EzAudio AI, le modèle audio IA qui transforme le texte en voix réaliste en quelques secondes

Récemment, l'Université Johns Hopkins et le laboratoire IA de Tencent ont lancé un nouveau modèle de génération de texte à audio appelé EzAudio. Cette technologie promet une conversion texte-parole d'une efficacité et d'une qualité sans précédent, marquant un progrès significatif dans l'intelligence artificielle et les technologies audio.

EzAudio fonctionne en utilisant l'espace latent des formes d'onde audio, plutôt que les spectrogrammes traditionnels. Cette innovation lui permet de fonctionner à haute résolution temporelle, sans nécessiter de vocodeur neuronal supplémentaire.

L'architecture d'EzAudio, appelée EzAudio-DiT (Diffusion Transformer), intègre plusieurs innovations technologiques pour améliorer les performances et l'efficacité. Parmi celles-ci, on trouve une nouvelle technique de normalisation adaptative par couche AdaLN-SOLA, des connexions skip longues, et des techniques avancées de codage de position comme RoPE (Rotation Position Embedding).

Les chercheurs affirment que les échantillons audio générés par EzAudio sont très réalistes, surpassant les modèles open source existants selon des évaluations objectives et subjectives.

Actuellement, le marché de la génération audio par IA connaît une croissance rapide. Des entreprises réputées comme ElevenLabs ont récemment lancé une application iOS pour la conversion texte-parole, témoignant de l'intérêt croissant des consommateurs pour les outils audio basés sur l'IA. Parallèlement, des géants de la technologie comme Microsoft et Google investissent de plus en plus dans les technologies de simulation vocale par IA.

Selon Gartner, 40 % des solutions d'IA générative seront multimodales d'ici 2027, combinant des capacités textuelles, visuelles et audio. Cela signifie que des modèles de génération audio de haute qualité comme EzAudio pourraient jouer un rôle important dans le domaine en constante évolution de l'IA.

L'équipe EzAudio a rendu publics son code, son jeu de données et les points de contrôle du modèle, soulignant ainsi la transparence et encourageant la poursuite des recherches dans ce domaine.

Les chercheurs estiment que les applications d'EzAudio pourraient aller au-delà de la génération d'effets sonores, englobant la production vocale et musicale. Avec les progrès technologiques, il devrait trouver de nombreuses applications dans les secteurs du divertissement, des médias, des services d'assistance et des assistants virtuels.

Démo : https://huggingface.co/spaces/OpenSound/EzAudio

Accès au projet : https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file

Points clés :
🌟 EzAudio est un nouveau modèle de génération de texte à audio développé par l'Université Johns Hopkins et Tencent, marquant une avancée majeure dans les technologies audio.
🎧 Grâce à son architecture et à ses technologies innovantes, ce modèle génère des échantillons audio de qualité supérieure aux modèles open source existants, offrant un potentiel d'applications vastes.
⚖️ Avec le développement de la technologie, les questions d'éthique et d'utilisation responsable deviennent de plus en plus importantes. La publication du code de recherche d'EzAudio offre une occasion d'examiner les risques et les bénéfices futurs.

Actualités IA

Produit par Tencent ! EzAudio AI, le modèle audio IA qui transforme le texte en voix réaliste en quelques secondes

AIbase基地

Recommandations d'actualités IA connexes

ServiceNow sur le point d'acquérir Moveworks, une entreprise d'IA, pour 3 milliards de dollars

Unitree Robotics fait son entrée dans le e-commerce transfrontalier : ouverture d'une boutique officielle sur AliExpress avec de nombreux produits bénéficiant d'une subvention de 10 milliards de yuans

Le OnePlus 13 lance le nouveau ColorOS 15.0.0.701 avec une fonctionnalité de reconnaissance vocale AIGC en première mondiale

ChatGPT, un gouffre à trafic AI : parmi les 10 sites les plus visités au monde, mais partageant peu de trafic