hertz-dev

オープンソースの全二重音声生成基礎モデル

一般製品プログラミング音声処理音声認識

hertz-devは、Standard Intelligenceがオープンソースで提供する全二重、音声のみのトランスフォーマーベースモデルで、85億パラメーターを備えています。このモデルは拡張可能なクロスモーダル学習技術を表しており、モノラル16kHzの音声を8Hzの潜在表現に変換でき、ビットレートは1kbpsです。他のオーディオコーデックよりも優れた性能を発揮します。hertz-devの主な利点には、低遅延、高効率、研究者による微調整と構築の容易さなどがあります。製品の背景情報として、Standard Intelligenceは全人類に利益をもたらす汎用人工知能の構築を目指しており、hertz-devはその取り組みの第一歩です。

Best AI Websites & Tools

hertz-dev

hertz-dev 最新のトラフィック状況

hertz-dev 訪問数の傾向

hertz-dev 訪問地理的分布

hertz-dev トラフィックソース

hertz-dev 代替品

hertz-dev — オープンソースの全二重音声生成基礎モデル

Llasa-1B — Llasa-1Bは、LLaMAを基盤としたテキスト読み上げ（TTS）モデルであり、中国語と英語の音声合成に対応しています。

Speechllect — リアルタイムAI音声テキスト変換／テキスト音声変換ソリューション

HunyuanVideo-I2V — HunyuanVideo-I2Vは、テンセントがHunyuanVideoに基づいて開発した、画像から動画を生成するフレームワークです。

Llasa — Llamaフレームワークに基づくTTS基礎モデルで、16万時間のトークン化された音声データに対応しています。

Octave TTS — Octave TTSは、テキストの意味を理解できる最初の音声合成モデルであり、感情豊かで風格のある音声を生成できます。

IndexTTS — 産業レベルで制御可能な、効率的なゼロショットテキスト音声変換システム

Wan — Wanはアリババの通義实验室が開発した、テキストや画像などから動画を生成できる高度なビジュアル生成モデルです。

SkyReels-V1-Hunyuan-I2V — SkyReels V1は、人間中心の高品質映画レベルの動画生成に特化したオープンソースの基礎モデルです。

SkyReels-V1 — SkyReels-V1は、高品質な動画生成に特化した、初のオープンソースの人間中心型動画基礎モデルです。

DeepScaleR-1.5B-Preview — 強化学習によって最適化された大規模言語モデルで、数学問題解決能力の向上に特化しています。

FireRedASR — オープンソースの工業レベル標準中国語自動音声認識モデルで、様々なアプリケーションシナリオに対応しています。

Lumina-Video — Lumina-Videoは、テキストからビデオを生成する試作プロジェクトです。

YuE — YuEは、歌詞から完全な楽曲を生成することに特化したオープンソースの音楽基礎モデルです。

Llasa-3B — Llasa-3Bは、LLaMAを基盤としたテキスト音声合成モデルで、中国語と英語の音声生成に対応しています。

Kokoro-82M — 8200万パラメーターを備えた最先端のテキスト音声変換(TTS)モデルです。

Robo Blogger — 音声からブログ記事を作成するアシスタント

OmniAudio-2.6B — 世界最速のエッジデバイス対応音声言語モデル

CosyVoice音声生成大規模モデル2.0-0.5B — 効率的で多言語対応の音声合成モデル

MMAudio — MMAudioは、ビデオおよび/またはテキスト入力から同期音声ファイルを生成します。

Allegro-TI2V — テキスト画像から動画を生成するモデル

OuteTTS-0.1-350M — 純粋な言語モデルを用いたテキスト音声合成モデル

Fish Agent V0.1 3B — 高精度な環境音声情報の捕捉と生成を行う音声合成モデル

Universal-2 — 次世代音声AI。卓越した音声データ処理能力を提供します。

GLM-4-Voice — 日本語と英語の音声対話を行うエンドツーエンドモデル

Spirit LM — テキストと音声統合のマルチモーダル言語モデル

CogView3-Plus-3B — 高解像度画像生成に対応したテキスト画像生成モデル

F5-TTS — 深層学習に基づく高品質テキスト音声合成モデル

Llama 3.2 3b Voice — Llamaモデルを使用した音声合成ツール

VALL-E 2 — マイクロソフトアジア研究院が開発した音声合成技術