CSMは、Sesameが開発した対話型音声生成モデルであり、テキストと音声入力に基づいて高品質の音声を生成できます。このモデルはLlamaアーキテクチャに基づいており、Mimiオーディオエンコーダーを使用しています。主に音声合成とインタラクティブな音声アプリケーション(音声アシスタントや教育ツールなど)に使用されます。CSMの主な利点は、自然で滑らかな音声を生成できること、そしてコンテキスト情報を使用して音声出力を最適化できることです。このモデルは現在オープンソースであり、研究や教育目的で使用できます。