Spirit LM

テキストと音声統合のマルチモーダル言語モデル

一般製品生産性マルチモーダル言語モデル
Spirit LMは、テキストと音声を自由に融合できる基礎的なマルチモーダル言語モデルです。70億パラメータの事前学習済みテキスト言語モデルをベースに、テキストと音声ユニットの継続的な学習によって音声モードに拡張されています。音声とテキストのシーケンスは単一のトークンストリームに連結され、小規模な自動キュレーションされた音声テキスト平行コーパスを用いて、単語レベルのインターリービング手法で学習が行われます。Spirit LMには、基礎版(音声音素ユニット(HuBERT)を使用)と、音素ユニットに加えてピッチとスタイルユニットを使用して表現力を模倣する表現版の2つのバージョンがあります。いずれのバージョンでも、テキストはサブワードBPEトークンでエンコードされます。このモデルは、テキストモデルのセマンティック能力と音声モデルの表現能力の両方を示しています。さらに、Spirit LMは少量のサンプルでクロスモーダルな新しいタスク(ASR、TTS、音声分類など)を学習できることを示しています。
ウェブサイトを開く

Spirit LM 最新のトラフィック状況

月間総訪問数

218

直帰率

45.60%

平均ページ/訪問

1.0

平均訪問時間

00:00:00

Spirit LM 訪問数の傾向

Spirit LM 訪問地理的分布

Spirit LM トラフィックソース

Spirit LM 代替品