MegaTTS 3 é um modelo de síntese de voz eficiente baseado em PyTorch, desenvolvido pela ByteDance, com capacidade de clonagem de voz de alta qualidade. Sua arquitetura leve contém apenas 0,45B de parâmetros, suporta chinês, inglês e comutação de código, podendo gerar fala natural e fluente com base no texto de entrada, sendo amplamente aplicado em pesquisa acadêmica e desenvolvimento tecnológico.