画期的なオープンソース音声モデル、Hertz-devが登場し、その驚異的な性能指標で世界中の開発者を震撼させています。85億パラメーターを誇るこのAI音声巨人は、2000万時間もの高品質音声データでトレーニングされ、人間が夢見てきたフルデュプレックスリアルタイム対話を実現しました。

最も驚くべき点は、その120ミリ秒という超低遅延性能です。既存の公開モデルと比較して倍増しており、人間とAIの対話体験を全く新しいレベルに引き上げています。AIとの会話中に、相手が話し終えるのを待つ必要がなく、自然に割り込むことができる、まさに人間同士の会話のようにスムーズで自然な流れを想像してみてください。

image.png

Hertz-devの中核となるブレークスルー:

画期的なフルデュプレックス技術:従来の交互発話方式を完全に覆し、真の双方向リアルタイムコミュニケーションを実現

卓越した音声圧縮:高音質を維持しながら、帯域幅の消費を大幅に削減

超長対話能力:継続的な会話内容を容易に理解し生成

革新的な低遅延:120ミリ秒の応答速度で、リアルタイムインタラクションの新時代を開拓

音声に特化したTransformerベースの基礎モデルとして、Hertz-devはトレーニングにおいて現実世界の会話データを利用することで、自然な間の取り方や豊かな感情表現の変化など、人間の音声の微妙な特徴を捉えることに成功しました。

開発者にとって、これは非常に価値のあるオープンソースの宝です。自由にモデルをダウンロードし、具体的な用途に合わせて微調整することで、様々な革新的な音声アプリケーションを作成できます。つまり、カスタマーサポートロボットから音声アシスタント、教育指導からエンターテイメントまで、あらゆる分野で飛躍的な進歩が期待されます。

プロジェクトアドレス:https://github.com/Standard-Intelligence/hertz-dev