Parler-TTS est un modèle léger de texte à parole (TTS) développé par Hugging Face, capable de générer une voix de haute qualité et naturelle, dans le style d'un locuteur donné (genre, tonalité, style de parole, etc.). Il s'agit d'une reproduction du travail de Dan Lyth et Simon King, publié dans l'article « Natural language guidance of high-fidelity text-to-speech with synthetic annotations », respectivement de Stability AI et de l'université d'Édimbourg. Contrairement à d'autres modèles TTS, Parler-TTS est entièrement open source, incluant les données, le prétraitement, le code d'entraînement et les poids. Ses fonctionnalités incluent : la génération d'une sortie vocale de haute qualité et naturelle, une utilisation et un déploiement flexibles, et un ensemble de données vocales annotées riche. Prix : gratuit.