CSM es un modelo de generación de voz conversacional desarrollado por Sesame, capaz de generar voz de alta calidad a partir de texto y entrada de audio. Este modelo se basa en la arquitectura Llama y utiliza el codificador de audio Mimi. Se utiliza principalmente para la síntesis de voz y aplicaciones de voz interactivas, como asistentes de voz y herramientas educativas. Las principales ventajas de CSM son su capacidad para generar voz natural y fluida, y la posibilidad de optimizar la salida de voz mediante información contextual. Actualmente, este modelo es de código abierto y está disponible para fines de investigación y educativos.