Le 13 mars, la société Sesame a lancé son dernier modèle de synthèse vocale, le CSM, suscitant un vif intérêt dans le secteur. Selon la présentation officielle, le CSM adopte une architecture d'apprentissage multimodale de bout en bout basée sur Transformer, capable de comprendre le contexte et de générer une voix naturelle et expressive, avec un rendu sonore bluffant de réalisme.

Ce modèle prend en charge la génération vocale en temps réel et peut traiter des entrées textuelles et audio. Les utilisateurs peuvent également contrôler des caractéristiques telles que le ton, l'intonation, le rythme et les émotions en ajustant les paramètres, démontrant une grande flexibilité.

Le CSM est considéré comme une avancée majeure dans le domaine de la synthèse vocale par IA. La naturalité de sa voix est si élevée qu'il est « impossible de distinguer une synthèse vocale d'une voix humaine ». Des utilisateurs ont posté des vidéos démontrant les performances quasi instantanées du CSM, le qualifiant de « meilleur modèle jamais testé ». Auparavant, Sesame avait publié en open source une version allégée, le CSM-1B, qui prend en charge la génération de voix cohérentes dans des conversations à plusieurs tours, et qui a été largement saluée.

Actuellement, le CSM est principalement entraîné sur l'anglais et offre d'excellents résultats, mais sa prise en charge multilingue reste limitée. Il ne prend pas encore en charge le chinois, mais une extension future est attendue.

Sesame a annoncé qu'une partie des résultats de ses recherches serait open source. Les développeurs de la communauté discutent déjà activement de son potentiel sur GitHub. Le CSM ne s'applique pas seulement aux IA conversationnelles, mais pourrait également révolutionner l'expérience d'interaction vocale dans les domaines de l'éducation et du divertissement. Des experts du secteur estiment que le CSM pourrait redéfinir les standards des assistants vocaux IA, offrant des conversations homme-machine plus naturelles.