Spirit LM
テキストと音声統合のマルチモーダル言語モデル
一般製品生産性マルチモーダル言語モデル
Spirit LMは、テキストと音声を自由に融合できる基礎的なマルチモーダル言語モデルです。70億パラメータの事前学習済みテキスト言語モデルをベースに、テキストと音声ユニットの継続的な学習によって音声モードに拡張されています。音声とテキストのシーケンスは単一のトークンストリームに連結され、小規模な自動キュレーションされた音声テキスト平行コーパスを用いて、単語レベルのインターリービング手法で学習が行われます。Spirit LMには、基礎版(音声音素ユニット(HuBERT)を使用)と、音素ユニットに加えてピッチとスタイルユニットを使用して表現力を模倣する表現版の2つのバージョンがあります。いずれのバージョンでも、テキストはサブワードBPEトークンでエンコードされます。このモデルは、テキストモデルのセマンティック能力と音声モデルの表現能力の両方を示しています。さらに、Spirit LMは少量のサンプルでクロスモーダルな新しいタスク(ASR、TTS、音声分類など)を学習できることを示しています。
Spirit LM 最新のトラフィック状況
月間総訪問数
218
直帰率
45.60%
平均ページ/訪問
1.0
平均訪問時間
00:00:00