CosyVoice 2

拡張可能なストリーミング音声合成技術と大規模言語モデルを組み合わせた製品です。

一般製品生産性音声合成ストリーミング

CosyVoice 2は、アリババグループのSpeechLab@Tongyiチームが開発した音声合成モデルです。教師あり離散音声トークンに基づき、言語モデル（LM）とフローマッチングという2つの一般的な生成モデルを組み合わせることで、高い自然度、内容の一貫性、話者類似性を備えた音声合成を実現しています。本モデルは、マルチモーダル大規模言語モデル（LLM）において、特にインタラクティブな体験において応答遅延とリアルタイム性が重要な音声合成に大きな役割を果たします。CosyVoice 2は、有限標量量子化によって音声トークンのコードブック利用率を高め、テキスト音声変換の言語モデルアーキテクチャを簡素化し、ブロック認識因果フローマッチングモデルを設計することで、さまざまな合成シナリオに対応しています。大規模多言語データセットでトレーニングされており、人間並みの合成品質、極めて低い応答遅延、リアルタイム性を備えています。

Best AI Websites & Tools

CosyVoice 2

CosyVoice 2 最新のトラフィック状況

CosyVoice 2 訪問数の傾向

CosyVoice 2 訪問地理的分布

CosyVoice 2 トラフィックソース

CosyVoice 2 代替品

CosyVoice 2 — 拡張可能なストリーミング音声合成技術と大規模言語モデルを組み合わせた製品です。

Llasa — Llamaフレームワークに基づくTTS基礎モデルで、16万時間のトークン化された音声データに対応しています。

ElevenLabs Flash — 人間らしい音声の迅速生成が可能なTTSモデル

InternVL2_5-4B — 視覚と言語理解を融合したマルチモーダル大規模言語モデル。

InternVL2_5-8B — 画像とテキストの相互理解をサポートする、マルチモーダル大規模言語モデルです。

Llama-3.3-70B-Instruct — 70億パラメーターの多言語大規模言語モデル

Llama-3.2-3B — 多言語大規模言語モデル

XVERSE-MoE-A36B — 多言語対応の大規模言語モデルで、幅広い分野のテキスト生成に対応しています。

Meta-Llama-3.1-8B — 80億パラメーターの多言語大規模言語モデル

Meta-Llama-3.1-70B — 70億パラメーターの大規模多言語テキスト生成モデル

Llama 3.1 — 最先端の大規模言語モデルで、多言語対応と高度な機能を備えています。

CosyVoice — 多言語対応の大規模音声生成モデル。推論、学習、デプロイの全段階を網羅する機能を提供します。

Make-An-Audio 2 — 拡散モデルに基づくテキスト音声変換技術

OpenVoice V2 — OpenVoice V2は、多言語に対応した高品質の音声合成モデルで、高精度の音声クローン作成とスタイル制御機能を提供します。

Yi-9B — 次世代オープンソース両言語大型言語モデル

StyleTTS 2 — 人間レベルの音声合成モデル

VideoDubber — AIによる動画翻訳・音声合成

Voxify — 超高精細AI音声生成

Voicejacket — AI音声合成ツール。そのリアルさは想像を超えます。

Argo — 自分自身の大規模モデルを簡単に構築し、専用の知恵をローカルで実現します。

Gemini Embedding テキスト埋め込みモデル — Gemini Embeddingは、Gemini APIを通じて強力な言語理解能力を提供する、高度なテキスト埋め込みモデルです。

NotaGen — NotaGen は、大規模言語モデルのトレーニングパラダイムを採用し、高品質のクラシック音楽楽譜の生成に特化した、記号音楽生成モデルです。

AoT — Atom of Thoughts (AoT)は大規模言語モデルの推論性能を向上させるためのフレームワークです。

語析Yuxi-Know — 大規模言語モデルRAGナレッジベースに基づく知識グラフQ&Aシステムで、複数の主要な言語モデルへの対応とローカル展開をサポートしています。

Hugo Translator — LLMベースの記事翻訳ツール。多言語Markdownファイルを自動翻訳して作成します。

Aya Vision 32B — Aya Vision 32Bは、OCR、画像記述、視覚推論など、多様な用途に適した多言語対応のビジュアル言語モデルです。

Aya Vision 8B — 8億パラメーターの多言語視覚言語モデルで、OCR、画像キャプション、視覚推論などの機能をサポートしています。

Aya Vision — Aya Visionは、Cohereが提供する多言語・多モーダルなビジュアルモデルであり、多言語環境における視覚とテキストの理解能力の向上を目指しています。

LLaDA — LLaDAは大規模言語拡散モデルであり、強力な言語生成能力を備えており、LLaMA3 8Bと同等の性能を有します。

Level-Navi Agent-Search — Level-Navi Agentは、トレーニングなしで使用できるフレームワークであり、大規模言語モデルを使用して、深層クエリ理解と正確な検索を実行します。