Parler-TTS é um modelo leve de texto para fala (TTS) desenvolvido pela Hugging Face, capaz de gerar áudio de alta qualidade e natural com o estilo de um determinado falante (gênero, tom, estilo de fala, etc.). É uma recriação do trabalho publicado por Dan Lyth e Simon King, intitulado "Natural language guidance of high-fidelity text-to-speech with synthetic annotations", autores da Stability AI e da Universidade de Edimburgo, respectivamente. Diferentemente de outros modelos TTS, o Parler-TTS é totalmente de código aberto, incluindo o conjunto de dados, pré-processamento, código de treinamento e pesos. Suas funcionalidades incluem: geração de saída de áudio de alta qualidade e natural; uso e implementação flexíveis; e um rico conjunto de dados de áudio anotados. Preço: Gratuito.