VoiceCraft ist ein auf Token-Füllung basierendes neuronales Encoder-Decoder-Sprachmodell, das branchenführende Leistungen in der Sprachbearbeitung und Null-Shot-Text-to-Speech (TTS) bietet. Für unbekannte Stimmen benötigt VoiceCraft lediglich wenige Sekunden Sprachproben, um die Stimme zu klonen oder Aufnahmen zu bearbeiten. Das Modell eignet sich für unaufbereitete Daten wie Hörbücher, Online-Videos und Podcasts.