Zonos-v0.1は、Zyphraチームが開発したリアルタイムテキスト音声変換(TTS)モデルであり、高忠実度の音声クローン機能を備えています。このモデルは、Apache 2.0オープンソースライセンスの下で公開されている、16億パラメータのTransformerモデルと16億パラメータのハイブリッドモデル(Hybrid)で構成されています。テキストプロンプトに基づいて自然で表現力豊かな音声を作成でき、複数の言語をサポートしています。さらに、5~30秒の音声クリップで高品質の音声クローンを作成でき、話速、トーン、音質、感情などの条件に合わせて調整可能です。主な利点としては、生成品質が高く、リアルタイムのインタラクションに対応し、柔軟な音声制御機能を提供している点が挙げられます。このモデルの公開は、TTS技術の研究開発を促進することを目的としています。