CSM est un modèle de génération de parole conversationnelle développé par Sesame, capable de générer de la parole de haute qualité à partir d'entrées textuelles et audio. Ce modèle est basé sur l'architecture Llama et utilise l'encodeur audio Mimi. Il est principalement utilisé pour la synthèse vocale et les applications vocales interactives, telles que les assistants vocaux et les outils éducatifs. Les principaux avantages de CSM sont sa capacité à générer une parole naturelle et fluide, et la possibilité d'optimiser la sortie vocale grâce aux informations contextuelles. Ce modèle est actuellement open source et convient à des fins de recherche et d'éducation.