Zonos-v0.1-hybridは、Zyphraによって開発されたオープンソースのテキスト読み上げモデルであり、テキストプロンプトに基づいて自然な音声を出力します。このモデルは膨大な量の英語音声データでトレーニングされており、eSpeakを使用してテキストの正規化と音素化を行い、トランスフォーマーまたは混合バックボーンネットワークでDACトークンを予測します。英語、日本語、中国語、フランス語、ドイツ語など、複数の言語に対応しており、生成される音声の速度、トーン、音質、感情などを細かく制御できます。さらに、5~30秒の音声サンプルだけで高忠実度の音声クローンを作成できる、ゼロショット音声クローン機能も備えています。RTX 4090上でのリアルタイム係数は約2倍で、高速に動作します。使いやすいグラディオインターフェースも備えており、Dockerファイルで簡単にインストールとデプロイが可能です。現在、Hugging Faceで提供されており、ユーザーは無料で利用できますが、自身でデプロイする必要があります。