LlamaVoice est un grand modèle de génération de voix basé sur le modèle Llama. Il offre un processus plus fluide et plus efficace que les modèles de quantification vectorielle traditionnels qui reposent sur la prédiction de codes vocaux discrets, grâce à la prédiction directe de caractéristiques continues. Ce modèle se caractérise par la prédiction de caractéristiques continues, la prédiction de caractéristiques latentes de l'auto-encodeur variationnel (VAE), l'entraînement conjoint, des stratégies d'échantillonnage avancées et l'augmentation basée sur les modèles de flux.