CSM ist ein von Sesame entwickeltes Modell zur Generierung dialogischer Sprache, das hochwertige Sprache aus Text- und Audioeingaben generieren kann. Das Modell basiert auf der Llama-Architektur und verwendet den Mimi-Audio-Encoder. Es wird hauptsächlich für Sprachsynthese und interaktive Sprach Anwendungen verwendet, wie z. B. Sprachassistenten und Lernwerkzeuge. Die Hauptvorteile von CSM sind die Fähigkeit, natürliche und flüssige Sprache zu generieren, und die Möglichkeit, die Sprachausgabe durch Kontextinformationen zu optimieren. Das Modell ist derzeit Open Source und eignet sich für Forschungs- und Bildungszwecke.