アリババの通義实验室は最近、FunAudioLLMという音声生成大規模言語モデル(LLM)プロジェクトをオープンソース化しました。これは、人間と大規模言語モデル間の自然な音声インタラクション体験を向上させることを目的としています。このプロジェクトは、SenseVoiceとCosyVoiceという2つの主要なモデルで構成されています。
CosyVoiceは自然な音声生成に特化しており、多言語対応、音声と感情の制御機能を備えています。多言語音声生成、ゼロショット音声生成、クロスリンガルフ音声合成、指示実行において優れた性能を発揮します。15万時間のデータでトレーニングされており、中国語、英語、日本語、広東語、韓国語の5言語に対応し、音声を迅速に模倣し、感情とリズムのきめ細かい制御を提供します。
SenseVoiceは、高精度な多言語音声認識、感情認識、音声イベント検出に焦点を当てています。40万時間のデータでトレーニングされており、50以上の言語に対応しています。Whisperモデルよりも認識精度が高く、特に中国語と広東語では50%以上の向上を実現しています。SenseVoiceは、感情認識と音声イベント検出機能、そして高速な推論速度も備えています。
FunAudioLLMは、多言語翻訳、感情音声対話、インタラクティブポッドキャスト、オーディオブックなど、様々な人機インタラクションシナリオに対応しています。SenseVoice、LLM、CosyVoiceを組み合わせることで、シームレスな音声翻訳、感情音声チャットアプリケーション、インタラクティブなポッドキャストラジオを実現します。
技術原理としては、CosyVoiceは音声量子化符号化に基づいており、自然で滑らかな音声生成をサポートします。一方、SenseVoiceは、自動音声認識、言語認識、感情認識、音声イベント検出を含む包括的な音声処理機能を提供します。
オープンソースのモデルとコードは、ModelScopeとHuggingfaceで公開されています。また、GitHubではトレーニング、推論、微調整のコードも提供されています。CosyVoiceとSenseVoiceモデルはModelScopeでオンライン体験が可能で、ユーザーはこれらの高度な音声技術を直接試すことができます。
プロジェクトアドレス:https://github.com/FunAudioLLM