注目を集める音声技術イノベーターMiniMax Audioは、30種類以上の音声に対応し、一度に20万文字の入力可能な、全く新しいSpeech-02シリーズ音声モデルを発表しました。ユーザーにより自然で、よりスムーズで、より便利な音声体験を提供します。

QQ_1743560661176.png

今回のアップデートの中心となるのは、全く新しいSpeech-02シリーズです。公式発表によると、このシリーズは多言語対応能力が大幅に向上しており、より正確で、より自然な発音で様々な言語を表現できます。

さらに驚くべきことに、Speech-02の人声類似度は99%にも及びます。これは、合成された音声はより自然で、人間の声に非常に近いことを意味します。また、このモデルはゼロリズム障害を実現し、音声再生中に発生する可能性のある途切れやリズムの不安定さを完全に解消し、聴覚の一貫性とスムーズさを保証します。強調すべきは、多方面で大幅なアップグレードが行われたにもかかわらず、Speech-02シリーズは従来の手頃な価格を維持している点です。

音声合成技術の向上という中心的な点に加え、MiniMax Audioは多くの実用的な新機能も導入しました。全く新しい「Read Anything」機能を使用すると、ローカルファイルのアップロードやWeb URLの貼り付けによって、いつでもどこでも様々なコンテンツを聴くことができます。これにより、ユーザーが音声情報を取得できるチャネルが大幅に拡大しました [1,私たち以前の会話]。ドキュメント、電子書籍、ウェブ記事など、どのようなコンテンツでも、お気に入りの音色に変換して聴くことができます。

長文処理のニーズに対応して、MiniMax Audioは強力な「Long-Text Mode(長文モード)」を導入しました。このモードは一度の入力で最大20万文字の非同期音声合成に対応しており、オーディオブックやポッドキャストなどの長尺音声コンテンツの作成がかつてないほど容易になり、従来の長文合成で必要だった分割処理の問題を完全に解決します。

ユーザーエクスペリエンスの向上のため、MiniMax Audioは履歴管理機能を強化しました。ユーザーは、自分の音声合成履歴と設定をより簡単に閲覧、削除、整理できるようになりました。同時に、新しく追加された「Discovery Hub」では、すべての新機能と更新内容がまとめて表示され、ユーザーはMiniMax Audioの最新情報を迅速に理解し、習得することができます。

体験入口:https://www.minimax.io/audio