Make-An-Audio 2

拡散モデルに基づくテキスト音声変換技術

一般製品その他テキスト音声変換拡散モデル

Make-An-Audio 2は、浙江大学、バイトダンス、香港中文大学の研究者らが共同開発した、拡散モデルに基づくテキスト音声変換技術です。本技術は、事前に学習済みの大規模言語モデル（LLM）を用いてテキストを解析し、意味の整合性と時間的一貫性を最適化することで、生成される音声の品質を向上させています。また、フィードフォワード型Transformerに基づく拡散ノイズ除去器を設計することで、可変長音声生成のパフォーマンスを改善し、時間情報の抽出を強化しています。さらに、LLMを用いて大量の音声ラベルデータを音声テキストデータセットに変換することで、時間データの不足という問題を解決しています。

Best AI Websites & Tools

Make-An-Audio 2

Make-An-Audio 2 最新のトラフィック状況

Make-An-Audio 2 訪問数の傾向

Make-An-Audio 2 訪問地理的分布

Make-An-Audio 2 トラフィックソース

Make-An-Audio 2 代替品

Make-An-Audio 2 — 拡散モデルに基づくテキスト音声変換技術

StyleTTS 2 — 人間レベルの音声合成モデル

Llasa-3B — Llasa-3Bは、LLaMAを基盤としたテキスト音声合成モデルで、中国語と英語の音声生成に対応しています。

Kokoro-82M — 8200万パラメーターを備えた最先端のテキスト音声変換(TTS)モデルです。

CosyVoice 2 — 拡張可能なストリーミング音声合成技術と大規模言語モデルを組み合わせた製品です。

OuteTTS-0.2-500M — 高性能テキスト音声合成モデル

AI Voice Lab — テキストをリアルな音声に変換するオンラインツール

OuteTTS — 実験的なテキスト音声変換モデル

OuteTTS-0.1-350M — 純粋な言語モデルを用いたテキスト音声合成モデル

Fish Speech — 高品質の音声生成サービスを提供する音声合成ツールです。

Fish Agent V0.1 3B — 高精度な環境音声情報の捕捉と生成を行う音声合成モデル

MaskGCT TTS デモ — MaskGCTモデルベースの音声合成デモ

MaskGCT — アライメント情報不要のゼロショットテキスト音声変換モデル

F5-TTS — 深層学習に基づく高品質テキスト音声合成モデル

Bailing-TTS — 高品質な中国語方言音声生成のための、大規模テキスト音声変換モデル。

june — プライバシー保護のため、オフラインで使用可能なローカル音声チャットボットです。インターネット接続は不要です。

ToucanTTS — 多言語対応の制御可能なテキスト音声変換ツールキット

AudioLCM — 潜在的一貫性を備えた、高効率のテキスト音声変換モデル。

Seed-TTS — 高品質で多機能な音声合成モデルシリーズ

NaturalSpeech 3 — NaturalSpeech 3は、ゼロショット（Zero-Shot）音声合成システムであり、分解型コーデックと拡散モデルを用いて自然な音声生成を行います。

Whisper Speech — オープンソースのテキスト音声変換システム

Crikk — リアルなテキスト音声変換技術

Blogcast — AI搭載のテキスト音声変換ソフトウェア

AiVOOV - テキスト音声変換ソリューション — テキストを音声に変換する最高のAI音声生成器

Play.ht — AIによるリアルな音声生成ツール

Argo — 自分自身の大規模モデルを簡単に構築し、専用の知恵をローカルで実現します。

NotaGen — NotaGen は、大規模言語モデルのトレーニングパラダイムを採用し、高品質のクラシック音楽楽譜の生成に特化した、記号音楽生成モデルです。

AoT — Atom of Thoughts (AoT)は大規模言語モデルの推論性能を向上させるためのフレームワークです。

Inception Labs — Inception Labsは、次世代の拡散型大規模言語モデルを発表し、極めて高速で効率的で高品質な言語生成能力を提供します。

語析Yuxi-Know — 大規模言語モデルRAGナレッジベースに基づく知識グラフQ&Aシステムで、複数の主要な言語モデルへの対応とローカル展開をサポートしています。