Dans le contexte du développement rapide de l'intelligence artificielle, la synthèse vocale attire de plus en plus l'attention. Récemment, un nouveau modèle de synthèse vocale nommé Kokoro a été officiellement lancé sur la plateforme Hugging Face. Ce modèle, doté de 82 millions de paramètres, marque une étape importante dans le domaine de la synthèse vocale.
Kokoro v0.19, dans les semaines précédant sa sortie, a occupé la première place du classement TTS (texte-à-parole), surpassant même des modèles disposant d'un nombre de paramètres plus important. En configuration mono, il a atteint des performances comparables à celles de modèles tels que XTTS v2 (467M paramètres) et MetaVoice (1,2B paramètres), avec moins de 100 heures de données audio. Cette réussite suggère que la relation entre les performances des modèles de synthèse vocale traditionnels, le nombre de paramètres, la puissance de calcul et le volume de données pourrait être plus significative qu'on ne le pensait auparavant.
Pour l'utiliser, il suffit d'exécuter quelques lignes de code dans Google Colab pour charger le modèle et les packs vocaux, puis générer de l'audio de haute qualité. Kokoro prend actuellement en charge l'anglais américain et britannique, et offre plusieurs packs vocaux au choix.
L'entraînement de Kokoro a été réalisé sur des instances A100 80 Go de VRAM de Vast.ai, avec un coût de location relativement faible, assurant ainsi un entraînement efficace. L'ensemble du processus d'entraînement n'a nécessité que moins de 20 cycles d'entraînement et moins de 100 heures de données audio. Le modèle Kokoro a été entraîné à l'aide de données audio du domaine public et d'autres données audio sous licence ouverte, garantissant ainsi la conformité.
Bien que Kokoro offre d'excellentes performances en synthèse vocale, il ne prend pas encore en charge le clonage vocal en raison des limitations de ses données d'entraînement et de son architecture. De plus, les données d'entraînement principales se concentrent sur les lectures longues et les narrations, et non sur les dialogues.
Modèle : https://huggingface.co/hexgrad/Kokoro-82M
Expérience : https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Points clés :
🌟 Kokoro-82M est un nouveau modèle de synthèse vocale doté de 82 millions de paramètres et prenant en charge plusieurs packs vocaux.
🎤 Ce modèle excelle dans le domaine du TTS, ayant occupé la première place du classement, avec un entraînement réalisé à partir de moins de 100 heures de données audio.
📊 L'entraînement du modèle Kokoro a utilisé des données sous licence ouverte, garantissant la conformité, mais présente encore certaines limitations fonctionnelles.