Kokoro-TTS：小型文本转语音模型，曾荣登TTS排行榜榜首

Dans le contexte du développement rapide de l'intelligence artificielle, la synthèse vocale attire de plus en plus l'attention. Récemment, un nouveau modèle de synthèse vocale nommé Kokoro a été officiellement lancé sur la plateforme Hugging Face. Ce modèle, doté de 82 millions de paramètres, marque une étape importante dans le domaine de la synthèse vocale.

Kokoro v0.19, dans les semaines précédant sa sortie, a occupé la première place du classement TTS (texte-à-parole), surpassant même des modèles disposant d'un nombre de paramètres plus important. En configuration mono, il a atteint des performances comparables à celles de modèles tels que XTTS v2 (467M paramètres) et MetaVoice (1,2B paramètres), avec moins de 100 heures de données audio. Cette réussite suggère que la relation entre les performances des modèles de synthèse vocale traditionnels, le nombre de paramètres, la puissance de calcul et le volume de données pourrait être plus significative qu'on ne le pensait auparavant.

Pour l'utiliser, il suffit d'exécuter quelques lignes de code dans Google Colab pour charger le modèle et les packs vocaux, puis générer de l'audio de haute qualité. Kokoro prend actuellement en charge l'anglais américain et britannique, et offre plusieurs packs vocaux au choix.

L'entraînement de Kokoro a été réalisé sur des instances A100 80 Go de VRAM de Vast.ai, avec un coût de location relativement faible, assurant ainsi un entraînement efficace. L'ensemble du processus d'entraînement n'a nécessité que moins de 20 cycles d'entraînement et moins de 100 heures de données audio. Le modèle Kokoro a été entraîné à l'aide de données audio du domaine public et d'autres données audio sous licence ouverte, garantissant ainsi la conformité.

Bien que Kokoro offre d'excellentes performances en synthèse vocale, il ne prend pas encore en charge le clonage vocal en raison des limitations de ses données d'entraînement et de son architecture. De plus, les données d'entraînement principales se concentrent sur les lectures longues et les narrations, et non sur les dialogues.

Modèle : https://huggingface.co/hexgrad/Kokoro-82M

Expérience : https://huggingface.co/spaces/hexgrad/Kokoro-TTS

Points clés :
🌟 Kokoro-82M est un nouveau modèle de synthèse vocale doté de 82 millions de paramètres et prenant en charge plusieurs packs vocaux.
🎤 Ce modèle excelle dans le domaine du TTS, ayant occupé la première place du classement, avec un entraînement réalisé à partir de moins de 100 heures de données audio.
📊 L'entraînement du modèle Kokoro a utilisé des données sous licence ouverte, garantissant la conformité, mais présente encore certaines limitations fonctionnelles.

Actualités IA

Kokoro-TTS：小型文本转语音模型，曾荣登TTS排行榜榜首

AIbase基地

Recommandations d'actualités IA connexes

Réponse de Lei Jun aux 7 jours de la fête nationale : 8 jours de critiques sur l'IA ; proposition de renforcer la législation sur la synthèse vocale et le remplacement de visage par IA

Système de synthèse vocale Spark-TTS : prise en charge du clonage vocal zéro-échantillon et du contrôle granulaire

Dubformer筹集360万美元，其情感传递技术彻底改变了AI配音

Proposition de Lei Jun au cours de la session parlementaire : renforcer la lutte contre les abus et les atteintes aux droits liés à la technologie de substitution faciale et vocale par IA