SpeechGPT2

エンドツーエンドの類人音声対話モデル

プレミアム新製品チャット音声対話感情表現
SpeechGPT2は、復旦大学計算機科学学院が開発したエンドツーエンドの音声対話言語モデルです。感情を感知して表現し、コンテキストと人間の指示に基づいて、様々なスタイルで適切な音声応答を提供します。このモデルは超低ビットレート音声コーデック(750bps)を採用し、意味情報と音響情報を模倣し、多入力多出力言語モデル(MIMO-LM)を用いて初期化されます。現在、SpeechGPT2はまだターン制の対話システムですが、全二重リアルタイム版の開発が進められており、有望な進展が見られています。計算資源とデータ資源の制約から、音声認識のノイズ耐性と音声生成の音質安定性にはまだ課題がありますが、今後、技術レポート、コード、モデルウェイトをオープンソース化する予定です。
ウェブサイトを開く

SpeechGPT2 最新のトラフィック状況

月間総訪問数

536

直帰率

37.61%

平均ページ/訪問

1.9

平均訪問時間

00:00:31

SpeechGPT2 訪問数の傾向

SpeechGPT2 訪問地理的分布

SpeechGPT2 トラフィックソース

SpeechGPT2 代替品