VoiceCraft est un modèle linguistique de type encodeur-décodeur neuronal basé sur le remplissage de jetons, offrant des performances de pointe en matière d'édition vocale et de synthèse vocale texte-parole (TTS) zéro-shot. Pour des voix inconnues, VoiceCraft ne nécessite que quelques secondes d'échantillon vocal pour cloner cette voix ou éditer un enregistrement. Ce modèle convient aux données non traitées, telles que les livres audio, les vidéos en ligne et les podcasts.