OuteTTS-0.1-350M
Modèle de synthèse vocale texte-à-parole basé sur un modèle linguistique pur.
Produit OrdinaireProductivitéTexte-à-paroleSynthèse vocale
OuteTTS-0.1-350M est une technologie de synthèse vocale texte-à-parole basée sur un modèle linguistique pur. Elle ne nécessite aucun adaptateur externe ni architecture complexe, et produit une synthèse vocale de haute qualité grâce à des invites et des balises audio soigneusement conçues. Ce modèle, basé sur l'architecture LLaMa et utilisant 350 millions de paramètres, démontre le potentiel de la synthèse vocale directe à partir d'un modèle linguistique. Il traite l'audio en trois étapes : la tokenisation audio avec WavTokenizer, la création d'un mappage précis mot-à-balise audio grâce à l'alignement forcé CTC, et la création d'invites structurées suivant un format spécifique. Les principaux avantages d'OuteTTS incluent une méthode de modélisation linguistique pure, la capacité de clonage vocal, et la compatibilité avec les formats llama.cpp et GGUF.
OuteTTS-0.1-350M Dernière situation du trafic
Nombre total de visites mensuelles
1049
Taux de rebond
40.94%
Nombre moyen de pages par visite
1.2
Durée moyenne de la visite
00:00:13