人工知能分野において、テキスト音声生成技術は研究のホットトピックになりつつあります。最近、研究者たちは性能と効率の両面で優れた新しいモデル、TANGOFLUXを発表しました。
TANGOFLUXは、5億1500万個のパラメータを持つ高効率なテキスト音声生成モデルです。わずか3.7秒で最長30秒の44.1kHzオーディオを生成可能であり、単一のA40 GPU上で非常に優れたパフォーマンスを発揮します。
TANGOFLUXの主な特徴は、鳥の鳴き声、口笛、爆発音などの様々な効果音を生成できることです。音楽生成にも対応していますが、その精度はそれほど高くありません。
テキスト音声生成モデルにおける主要な課題の1つは、好みに関するペアの作成です。大規模言語モデル(LLM)とは異なり、テキスト音声生成モデルには検証可能な報酬メカニズムやゴールドスタンダードがありません。この問題を解決するため、研究チームはCLAP-Ranked Preference Optimization(CRPO)という新しいフレームワークを提案しました。このフレームワークは、好みに関するデータを反復的に生成および最適化することで、テキスト音声生成モデルのアラインメント性能を向上させます。研究によると、CRPOを用いて生成されたオーディオの好みに関するデータは、既存の代替案よりも優れた性能を示しています。
このフレームワークにより、TANGOFLUXは複数の客観的および主観的ベンチマークテストでトップクラスの結果を達成しました。さらに、研究チームは、テキスト音声生成に関する研究を促進するため、すべてのコードとモデルをオープンソース化することを決定しました。オーディオ生成が必要なアプリケーションシナリオにおいて、TANGOFLUXは重要な技術的進歩と言えるでしょう。
実際の音声生成において、TANGOFLUXは他のモデルよりも優れたオーディオ品質を示し、よりクリアなイベントサウンド、より優れたイベントシーケンスの再現、そしてより高いオーディオ品質を実現しています。複数のサンプルの比較を通して、ユーザーはTANGOFLUXのオーディオ生成における優位性を直感的に理解できます。
プロンプト:人間の澄んだ口笛の音と自然の鳥のさえずりが調和して共存する様子
この新技術の登場により、テキスト音声生成の応用範囲はますます広がり、今後、映画制作やゲームの音響効果などの分野で重要な役割を果たす可能性があります。
プロジェクト入口:https://tangoflux.github.io/
要点:
🎧 TANGOFLUXは、3.7秒で30秒の高品質オーディオを生成できる高効率なテキスト音声生成モデルです。
🔧 モデルの性能とオーディオの好みに関するデータを最適化するためのCLAP-Ranked Preference Optimization(CRPO)フレームワークを提案しました。
🌍 テキスト音声生成の研究と応用を促進するために、すべてのコードとモデルをオープンソース化しました。