MaskGCT

アライメント情報不要のゼロショットテキスト音声変換モデル

一般製品その他テキスト音声変換ゼロショット学習

MaskGCTは、明示的なアライメント情報や音素レベルの継続時間予測を必要としない革新的なゼロショットテキスト音声変換（TTS）モデルです。自己回帰型と非自己回帰型のシステムにおける問題点を解決し、2段階モデルを採用しています。第1段階では、テキスト予測を使用して音声自己教師あり学習（SSL）モデルから抽出した意味的トークンを使用し、第2段階では、これらの意味的トークンに基づいて音響トークンを予測します。MaskGCTはマスクと予測の学習パラダイムに従い、トレーニング中に、与えられた条件とプロンプトに基づいてマスクされた意味的または音響トークンを予測する学習を行います。推論時には、指定された長さのトークンを並列に生成します。実験により、MaskGCTは、品質、類似性、および理解可能性の点で、最先端のゼロショットTTSシステムを上回ることが示されています。

Best AI Websites & Tools

MaskGCT

MaskGCT 最新のトラフィック状況

MaskGCT 訪問数の傾向

MaskGCT 訪問地理的分布

MaskGCT トラフィックソース

MaskGCT 代替品

MaskGCT — アライメント情報不要のゼロショットテキスト音声変換モデル

Zonos-v0.1-hybrid — Zonos-v0.1-hybridは、高品質の音声合成サービスを提供する、最先端のオープンソーステキスト読み上げモデルです。

Llasa-3B — Llasa-3Bは、LLaMAを基盤としたテキスト音声合成モデルで、中国語と英語の音声生成に対応しています。

Kokoro-82M — 8200万パラメーターを備えた最先端のテキスト音声変換(TTS)モデルです。

OuteTTS-0.2-500M — 高性能テキスト音声合成モデル

AI Voice Lab — テキストをリアルな音声に変換するオンラインツール

OuteTTS — 実験的なテキスト音声変換モデル

OuteTTS-0.1-350M — 純粋な言語モデルを用いたテキスト音声合成モデル

Fish Speech — 高品質の音声生成サービスを提供する音声合成ツールです。

Fish Agent V0.1 3B — 高精度な環境音声情報の捕捉と生成を行う音声合成モデル

MaskGCT TTS デモ — MaskGCTモデルベースの音声合成デモ

F5-TTS — 深層学習に基づく高品質テキスト音声合成モデル

Bailing-TTS — 高品質な中国語方言音声生成のための、大規模テキスト音声変換モデル。

ToucanTTS — 多言語対応の制御可能なテキスト音声変換ツールキット

AudioLCM — 潜在的一貫性を備えた、高効率のテキスト音声変換モデル。

Seed-TTS — 高品質で多機能な音声合成モデルシリーズ

Make-An-Audio 2 — 拡散モデルに基づくテキスト音声変換技術

NaturalSpeech 3 — NaturalSpeech 3は、ゼロショット（Zero-Shot）音声合成システムであり、分解型コーデックと拡散モデルを用いて自然な音声生成を行います。

Whisper Speech — オープンソースのテキスト音声変換システム

Crikk — リアルなテキスト音声変換技術

OpenVoice — オープンソースのリアルタイム音声クローン技術

StyleTTS 2 — 人間レベルの音声合成モデル

Blogcast — AI搭載のテキスト音声変換ソフトウェア

AiVOOV - テキスト音声変換ソリューション — テキストを音声に変換する最高のAI音声生成器

Play.ht — AIによるリアルな音声生成ツール

Llasa — Llamaフレームワークに基づくTTS基礎モデルで、16万時間のトークン化された音声データに対応しています。

Level-Navi Agent-Search — Level-Navi Agentは、トレーニングなしで使用できるフレームワークであり、大規模言語モデルを使用して、深層クエリ理解と正確な検索を実行します。

Octave TTS — Octave TTSは、テキストの意味を理解できる最初の音声合成モデルであり、感情豊かで風格のある音声を生成できます。

IndexTTS — 産業レベルで制御可能な、効率的なゼロショットテキスト音声変換システム

VideoGrain — VideoGrainは、カテゴリレベル、インスタンスレベル、パーツレベルの動画編集を実現するためのゼロショット手法です。