3月13日、Sesame社は最新のテキスト音声変換モデルCSMを発表し、業界の注目を集めています。公式発表によると、CSMはTransformerベースのエンドツーエンド多モーダル学習アーキテクチャを採用し、コンテキスト情報を理解して、自然で感情豊かな音声生成を実現しています。そのリアルな音声は驚くべきクオリティです。
このモデルはリアルタイム音声生成に対応し、テキストと音声の両方の入力を処理できます。ユーザーはパラメーターを調整することで、トーン、イントネーション、リズム、感情などを制御でき、高い柔軟性を発揮します。
CSMはAI音声技術における重要なブレークスルーと見なされています。その音声の自然度は非常に高く、「人工合成か真人か見分けがつかない」レベルです。ユーザーがCSMのほぼ無遅延の性能を示す動画を公開し、「今までで一番優れたモデル」と称賛する声もあります。以前、Sesame社は小型版のCSM-1Bをオープンソース化しており、複数回の対話で一貫性のある音声生成を可能にし、高い評価を得ていました。
現在、CSMは主に英語でトレーニングされており、優れた性能を発揮していますが、多言語対応はまだ限定的です。現時点では中国語には対応していませんが、今後の拡張が期待されています。
Sesame社は研究成果の一部をオープンソース化すると発表しており、コミュニティ開発者たちはGitHub上でその可能性について活発に議論しています。CSMは対話型AIへの応用だけでなく、教育やエンターテインメント分野における音声インタラクション体験の革新を推進する可能性も秘めています。業界関係者は、CSMがAI音声アシスタントの標準を塗り替え、より自然な人間と機械の対話を実現すると考えています。