SpeechGPT2
エンドツーエンドの類人音声対話モデル
プレミアム新製品チャット音声対話感情表現
SpeechGPT2は、復旦大学計算機科学学院が開発したエンドツーエンドの音声対話言語モデルです。感情を感知して表現し、コンテキストと人間の指示に基づいて、様々なスタイルで適切な音声応答を提供します。このモデルは超低ビットレート音声コーデック(750bps)を採用し、意味情報と音響情報を模倣し、多入力多出力言語モデル(MIMO-LM)を用いて初期化されます。現在、SpeechGPT2はまだターン制の対話システムですが、全二重リアルタイム版の開発が進められており、有望な進展が見られています。計算資源とデータ資源の制約から、音声認識のノイズ耐性と音声生成の音質安定性にはまだ課題がありますが、今後、技術レポート、コード、モデルウェイトをオープンソース化する予定です。
SpeechGPT2 最新のトラフィック状況
月間総訪問数
536
直帰率
37.61%
平均ページ/訪問
1.9
平均訪問時間
00:00:31