IndexTTS : Modèle de synthèse vocale texte-parole Bilibili : Correction orthographique des prononciations chinoises, contrôle précis des pauses

AIbase基地

Publié leActualités IA · 5 minutes de lecture · Feb 27, 2025

15.8k

IndexTTS, un modèle de synthèse vocale (TTS) de style GPT basé sur XTTS et Tortoise, vient d'être officiellement lancé par Bilibili. Ce système possède une capacité unique de correction de la prononciation des caractères chinois en utilisant le pinyin, et permet un contrôle précis des pauses à n'importe quel endroit grâce à la ponctuation. Cette innovation technologique rend la synthèse vocale plus naturelle et fluide, suscitant un large intérêt.

Entraîné sur des dizaines de milliers d'heures de données, IndexTTS atteint des performances de pointe dans le secteur, surpassant les systèmes TTS populaires actuels tels que XTTS, CosyVoice2, Fish-Speech et F5-TTS. Plusieurs modules du système ont été améliorés, notamment la représentation des caractéristiques des conditions du haut-parleur et l'optimisation de la qualité audio. Grâce à une approche de modélisation hybride, IndexTTS corrige rapidement les lectures erronées des caractères chinois, améliorant ainsi l'expérience utilisateur.

Le modèle utilise un encodeur conditionnel de dernière génération et un décodeur vocal basé sur BigVGAN2, améliorant non seulement la stabilité de l'entraînement, mais aussi la similarité et la qualité du timbre. L'équipe a déclaré avoir soumis un article scientifique sur arXiv et prévoit de publier les paramètres du modèle et le code dans les prochaines semaines. De plus, IndexTTS fournit plusieurs ensembles de tests, incluant des vocabulaires polysyllabiques et des ensembles d'évaluation subjectifs et objectifs, pour permettre aux chercheurs une analyse approfondie.

IndexTTS a obtenu d'excellents résultats lors de plusieurs évaluations, surpassant de nombreux modèles concurrents en termes de taux d'erreur mot/caractère (WER) et de similarité du locuteur (SS). Par exemple, lors des tests en mandarin, le taux d'erreur mot/caractère d'IndexTTS n'est que de 1,3 %, bien inférieur à celui des autres modèles, démontrant ainsi sa grande précision et sa stabilité. Simultanément, le score MOS de la qualité audio d'IndexTTS a atteint 4,01, soulignant son excellente qualité et son timbre.

Avec les progrès technologiques constants et l'élargissement des scénarios d'application, le lancement d'IndexTTS marque une avancée significative dans la technologie de la synthèse vocale. Pour plus d'informations sur ce système, les utilisateurs peuvent contacter l'équipe concernée pour obtenir une expérience détaillée et un support technique.

Projet:https://github.com/index-tts/index-tts

Points clés:
🌟 IndexTTS est un modèle TTS de style GPT basé sur XTTS et Tortoise, capable de corriger la prononciation des caractères chinois et de contrôler les pauses.
📊 Entraîné sur des dizaines de milliers d'heures de données, le système surpasse plusieurs systèmes TTS populaires existants, démontrant des performances de pointe dans le secteur.
🔍 IndexTTS a obtenu d'excellents résultats lors de plusieurs évaluations, son taux d'erreur mot/caractère et sa qualité audio surpassant ceux des autres modèles, démontrant ainsi ses atouts considérables.

Le modèle o1 d'OpenAI dévoilé : capacités exceptionnelles, traitement de 200 000 jetons

Récemment, un utilisateur a révélé sur le réseau social X qu'OpenAI avait brièvement rendu accessible son nouveau modèle o1 via l'URL "chatgpt.com/?model=o1" à certains utilisateurs, avant de rapidement le désactiver. Selon les retours utilisateurs, ce dernier modèle peut traiter environ 200 000 mots de texte et possède la capacité d'analyser des images. OpenAI qualifie le modèle o1 de "son modèle le plus puissant", particulièrement adapté aux tâches nécessitant créativité et raisonnement de haut niveau.

OpenAI lance GPT-4O-Audio-Preview : la voix peut désormais "comprendre" les émotions !

OpenAI révolutionne une fois de plus le secteur de l'intelligence artificielle avec le lancement de son nouveau modèle gpt-4o-audio-preview. Ce modèle fait preuve de capacités étonnantes en matière de génération et d'analyse vocale, ouvrant de nouvelles perspectives pour l'interaction homme-machine. Découvrons ensemble les caractéristiques et les applications potentielles de ce modèle innovant. Les fonctionnalités principales de gpt-4o-audio-preview se répartissent en trois axes : premièrement, il est capable de générer des réponses vocales naturelles et fluides à partir de texte, ce qui est idéal pour les assistants vocaux et les services clients virtuels.

Nouveau modèle OpenAI gpt-4o-2024-08-06 et gpt-4o-mini prennent en charge la sortie structurée

OpenAI a ajouté une fonctionnalité de sortie structurée à son API, garantissant que la sortie générée est parfaitement conforme à la structure JSON prédéfinie, améliorant ainsi considérablement la fiabilité de l'API et la précision des applications. Cette fonctionnalité définit non seulement la structure du JSON, mais garantit également l'exactitude de la sortie. Simultanément, les prix ont été réduits : le coût d'entrée a été diminué de moitié et le coût de sortie de 1/3. L'introduction de la sortie structurée a résolu les limitations du schéma JSON en matière de garantie de conformité de la sortie à une structure spécifique, améliorant considérablement les performances du modèle en matière de sortie structurée. Grâce à des innovations techniques, telles que la limitation...

OpenAI lance le nouveau modèle gpt-4o-64k-output-alpha : l'API GPT-4o prend désormais en charge des sorties jusqu'à 64K

Le point fort du nouveau modèle gpt-4o-64k-output-alpha d'OpenAI est sa capacité à générer des sorties jusqu'à 64K tokens en une seule fois. Idéal pour créer du contenu riche et détaillé, il répond aux besoins de la rédaction, de la programmation et de l'analyse de données complexes. Cependant, cette fonctionnalité augmente le prix de l'API : 18 $ par million de tokens en sortie, contre 6 $ par million de tokens en entrée. Cette mesure vise à compenser les coûts de calcul élevés et à encourager une utilisation responsable de cet outil puissant. Ce modèle est une avancée majeure pour les domaines de la création et de la recherche.