最近、Spark-TTSという高度なテキスト読み上げシステムがAIコミュニティで大きな話題になっています。最新のXの投稿や関連研究によると、このシステムはゼロショット音声クローンと細粒度音声制御機能で注目を集め、音声合成分野における大きな進歩を示しています。
このシステムは、大規模言語モデル(LLM)の強力な能力を最大限に活用し、研究と商業の両分野で利用可能な、非常に正確で自然な音声合成を目指しています。Spark-TTSの設計理念はシンプルさと効率性を重視しています。このシステムはQwen2.5をベースに構築されており、従来のように追加の生成モデルを必要とする複雑なプロセスを排除しています。他のモデルとは異なり、Spark-TTSはLLMが予測したコードから直接オーディオを再構築します。この方法は、オーディオ生成の手順を大幅に簡素化し、効率性を向上させ、技術的な複雑さを軽減します。
効率的なオーディオ生成能力に加えて、Spark-TTSは優れた音声クローン機能も備えています。このシステムはゼロショット音声クローンをサポートしており、特定の話者に関するトレーニングデータがなくても、話者の声を複製できます。
Spark-TTSの主な機能:
ゼロショット音声クローン:特定の話者のトレーニングデータがなくてもその声のスタイルを生成でき、迅速なパーソナライズに適しています。
細粒度音声制御:ユーザーは、話速やピッチを正確に調整できます(例:話速の高速化/低速化、音程の変化)。
複数言語対応:英語や中国語など、複数の言語に対応しており、世界規模での適用性を広げています。
音声の自然さは高く評価されており、オーディオブック制作などに特に適していることがユーザーフィードバックから確認されています。
技術アーキテクチャ
Spark-TTSの技術基盤は、BiCodec単一ストリーム音声コーデックです。このコーデックは、音声を2種類のトークンに分解します。
低ビットレートのセマンティックトークン(言語内容を担当)。
固定長のグローバルトークン(話者属性を担当)。
この分離方法は、音声特性の柔軟な調整を可能にし、Qwen-2.5の思考連鎖(Chain-of-Thought)技術と組み合わせることで、音声生成の品質と制御性をさらに向上させています。Qwen-2.5は大規模言語モデル(LLM)であり、強力な意味理解能力を提供します。
言語サポートにおいても、Spark-TTSは優れた性能を発揮します。中国語と英語の両方を同時に処理でき、複数言語合成時にも高い自然さと正確性を維持します。さらに、音声の性別、トーン、話速などのパラメーターを調整することで、ユーザーのニーズに合った仮想話者を生成できます。
プロジェクト:https://github.com/SparkAudio/Spark-TTS