Stability AI テキスト読み上げモデル
Stability AIの高忠実度テキスト読み上げモデル
一般製品その他音声合成高忠実度
Stability AIの高忠実度テキスト読み上げモデルは、大規模データセットでトレーニングされた音声合成モデルへの自然言語によるガイドを提供することを目的としています。異なる話者、スタイル、録音条件をラベル付けすることで自然言語によるガイドを行い、この手法を45,000時間分のデータセットに適用して音声言語モデルをトレーニングします。さらに、本モデルはオーディオの高忠実度を向上させるシンプルな手法を提案しており、発見されたデータに完全に依存しているにもかかわらず、高い性能を示しています。