Fish Audioは、衝撃的な新製品——Fish Speech1.5を発表しました。この最新のテキスト音声変換モデルは、まさに臨場感あふれる「声」で、正確性、安定性、多言語対応において、従来のモデルを大きく凌駕しています。さらに、5つの言語サポートを新たに搭載しました!さらに、Fish Speech1.5は、リアルタイムでシームレスな会話機能のリリースを予定しており、ユーザーはいつでもどこでも音声ライブラリを選択してインタラクティブなチャットを楽しむことができます。

image.png

Fish Speech1.5は、100万時間以上の多言語トレーニングデータで鍛え上げられた、まさに博識なモデルです。現在、英語、中国語、日本語を含む13言語に対応しています。これは決して誇張ではありません。匿名TTS-Arenaランキングで2位を獲得した実績があります!

Fish Speech1.5の音声クローン機能は、まさに「閃光」の速さです。遅延時間はわずか150ミリ秒以下、リアルタイム生成を実現しています!さらに重要なのは、Fish Speech1.5が事前学習済みモデルをオープンソース化していることです。自宅で「調整」するのも、クラウドサービスを利用するのも、簡単にできます!

主な特徴:

  • ゼロショットおよび少ショット音声合成:10~30秒の音声サンプルを聞かせるだけで、驚くほど巧みに模倣し、高品質の音声合成出力を生成します。まるでスーパー・イミテーションショーです!「見せる」勇気さえあれば、「学ぶ」ことができます!

  • 多言語およびクロスリンガルサポート:言語の壁に悩んでいませんか?Fish Speech1.5がその壁を取り除きます!入力欄に話したい言葉をコピー&ペーストするだけで、英語、日本語、韓国語、中国語、フランス語、ドイツ語、アラビア語、スペイン語に対応します。世界中の人々と自由に会話できるようになりました!

  • 音素非依存:従来の音声合成モデルは音素に依存していましたが、Fish Speech1.5は独自の道を歩みます。非常に高い汎化能力を持ち、あらゆる言語スクリプトのテキストを処理できます。これは音声合成界の革命です!

  • 高い精度:5分間の英文記事に対するFish Speech1.5のエラー率はわずか2%!驚くべき数字です!

  • 高速:Fish Speech1.5の速度も抜群です。Nvidia RTX4060搭載ノートパソコンではリアルタイム係数が約1:5、Nvidia RTX4090ではなんと1:15!まさに「飛ぶような感覚」です!

Fish Speech1.5はローカル展開にも対応:

WebUI:Chrome、Firefox、Edgeなどの主要ブラウザに対応した、シンプルで使いやすいWeb UIを提供し、いつでもどこでも音声合成の楽しさを体験できます。

GUI:APIサーバーとシームレスに連携できるPyQt6グラフィカルインターフェースも提供しており、Linux、Windows、macOSシステムに対応しています。「三銃士」にとって朗報です!

展開の容易さ:Linux、Windows、MacOSシステムへのFish Speech1.5の展開も容易で、速度低下を最小限に抑えることができます。

公式サイト:https://fish.audio/zh-CN/

プロジェクトアドレス:https://github.com/fishaudio/fish-speech