3月6日、出門問問(Mobvoi)は香港科技大学、上海交通大学、南洋理工大学、西北工業大学などのトップレベルの学術機関と共同で、次世代音声生成モデルSpark-TTSをオープンソース化し、商業利用可能な高品質TTSエンジンであるTicVoice7.0を発表しました。出門問問の7世代目となるTTSエンジンであるTicVoice7.0は、音声生成分野で大きな飛躍を遂げ、全く新しい音声生成パラダイムを開拓しました。

TicVoice7.0の最大の強みは、革新的な音声符号化方式とモデル構造にあります。このエンジンはBiCodec符号化技術を採用し、音声データを相補的な2つの部分、固定長のGlobal Tokenと低ビットレートのSemantic Tokenに符号化します。Global Tokenは、音色などの時間的依存性のないグローバルな特徴をモデル化し、音声生成のグローバルな制御性を確保します。一方、Semantic Tokenはwav2vec2.0で抽出された特徴をインプットとして、テキストと密接に関連する情報を符号化し、セマンティックな強い関連性を確保します。この設計は、従来の音声符号化における問題点を解決するだけでなく、音声トークンモデルとテキストトークンモデルの高レベルな統合を実現し、より効率的で制御可能な音声生成を可能にします。

微信截图_20250307084939.png

この革新に基づき、TicVoice7.0は卓越した音声クローン機能と感情表現力を実現しています。わずか3秒で声紋の特徴を正確に捉え、AIは「人の言葉を話す」だけでなく、ため息や間など、人間の微妙な感情表現を模倣することもできます。前世代の音声大規模モデルと比較して、TicVoice7.0は音色の類似度、感情表現、安定性において顕著な向上を見せており、国際的に広く用いられるMOSスコアは3.9から4.2に向上し、感情表現力が強化され、より自然で心地よく、安定した聴感を実現しています。

さらに、TicVoice7.0はパーソナライズされたカスタマイズにおいても優れた性能を発揮します。ユーザーは性別、速度、基本周波数などの属性を調整することで、独自のサウンドスタイルを正確に作り出すことができます。「至臻Pro-精品発音人」のカスタマイズでは、20~200文のサンプル音声を提供するだけで、アナウンサーレベルのプロフェッショナルな吹き替え体験を得ることができ、国際的に広く用いられるMOSスコアは4.3から4.7に向上し、放送レベルに達し、映画、ゲームなどのシーンにプロフェッショナルな音声生成ソリューションを提供します。

現在、出門問問はTicVoice7.0を自社のAI吹き替え製品「魔音工坊」に導入し、ユーザーにより良いサービスと体験を提供しています。このエンジンは、カスタマーサービス、オーディオブック、感情的なライブ配信、映画解説などのアプリケーションシーンで優れた性能を発揮するだけでなく、オープンソースエコシステムと産学連携による深い協調を通じて、業界の発展に新たな原動力をもたらしています。