Fish Audio社は、最新の音声処理モデルFish Agent V0.13Bを発表しました。この音声対音声モデルは、音声の生成と処理を効率的かつ正確に行うことができ、特に様々な音声の模倣やクローン作成に優れています。これは、自然で反応の速いAI音声アシスタントの実現に一歩近づいたことを意味します。

Fish Agent V0.13Bモデルは、Qwen-2.5-3B-Instructを基に事前学習されており、2000億個の音声とテキストトークンを含む大規模なデータセットを使用しています。従来のモデルでは、音声を複雑な意味符号に変換する必要があるのに対し、Fish Agent V0.13Bは「意味のないトークン」と呼ばれるアーキテクチャを採用し、音声レベルで直接音声処理と生成を行います。この直接処理方式は、モデル構造の簡素化だけでなく、モデルの反応速度と効率の向上にもつながります。

image.png

この革新的なアーキテクチャのおかげで、Fish Agent V0.13Bは、高速で自然な高品質の音声を生成し、「即時」音声クローン作成とテキスト音声変換を実現します。テキストから音声への変換時間(TTFA)はわずか200ミリ秒です。この特性により、音声アシスタント、自動カスタマーサービスなど、迅速な音声フィードバックが必要なアプリケーションに最適です。

image.png

Fish Agent V0.13Bモデルは、英語、中国語、ドイツ語、日本語、フランス語、スペイン語、韓国語、アラビア語など、複数の言語をサポートしており、約70万時間もの多言語音声データを使用してトレーニングされています。これは、様々な言語や状況に対応し、より自然で、人間の発音に近い音声を生成できることを意味します。

音声対音声生成とテキスト対音声変換機能に加えて、Fish Agent V0.13Bは次の重要な特性を備えています。

ゼロショット音声クローン:トレーニングなしで音声クローンを作成できます。

簡素化された30億パラメーター:30億のパラメーターを使用し、開発が容易です。

テキストと音声の入力に対応:柔軟な複数入力方式。

現在、Fish AudioはFish Agent V0.13Bモデルをオープンソース化し、ユーザーが体験できる初期デモバージョンを提供しています。このモデルの発表は、AI音声技術のさらなる発展を促進し、音声アシスタントやバーチャルヒューマンなどのアプリケーションに多くの可能性をもたらすでしょう。

GitHub: https://github.com/fishaudio/fish-speech

Fish Agent Demo: https://huggingface.co/spaces/fishaudio/fish-agent

モデルダウンロード: https://huggingface.co/fishaudio/fish-agent-v0.1-3b

技術レポート: https://arxiv.org/abs/2411.01156