Meta AIは最近、テキストと音声の自由な混合を可能にする基礎的なマルチモーダル言語モデル「SPIRIT LM」を公開しました。これは、音声とテキストのマルチモーダルタスクに新たな可能性を開く画期的なモデルです。
SPIRIT LMは、70億パラメーターの事前学習済みテキスト言語モデルをベースに、テキストと音声ユニットの継続的な学習を通じて音声モダリティに拡張されました。テキストの大規模モデルのようにテキストの理解と生成が可能であるだけでなく、音声の理解と生成も可能です。さらに、テキストと音声を混合して、様々な効果を生み出すこともできます!例えば、音声認識(音声からテキストへの変換)、音声合成(テキストから音声への変換)、音声分類(音声表現される感情の判断)などに使えます。
さらに驚くべきことに、SPIRIT LMは「感情表現」に特に優れています!様々な音声のトーンやスタイルを認識・生成し、AIの音声をより自然で感情豊かにすることができます。SPIRIT LMで生成された音声は、冷淡な機械音ではなく、喜怒哀楽といった感情表現豊かな人間の声のように聞こえることを想像してみてください!
AIによるより自然な感情表現を実現するため、Metaの研究者たちはSPIRIT LMの2つのバージョンを開発しました。
「基礎版」(BASE):このバージョンは、音声の音素情報、つまり音声の「基本構成要素」に焦点を当てています。
「表現版」(EXPRESSIVE):このバージョンは、音素情報に加えて、イントネーションやスタイルの情報も追加することで、AIの音声をより生き生きと表現豊かにします。
では、SPIRIT LMはどのようにしてこれを実現しているのでしょうか?
簡単に言うと、SPIRIT LMはMetaが以前公開した強力なテキスト大規模モデルであるLLAMA2をベースに訓練されています。研究者たちは大量のテキストと音声データをLLAMA2に「学習させ」、特別な「交互学習」方法を用いることで、LLAMA2はテキストと音声の規則を同時に学習できるようになりました。
SPIRIT LMの「感情表現」能力をテストするために、Metaの研究者たちは新しいテスト基準である「音声テキスト感情保持基準」(STSP)を設計しました。このテスト基準には、様々な感情を表す音声とテキストのプロンプトが含まれており、AIモデルが対応する感情の音声とテキストを正確に認識・生成できるかどうかをテストするために使用されます。その結果、SPIRIT LMの「表現版」は感情保持において優れた性能を示し、マルチモーダルで感情情報を保持できる最初のAIモデルとなりました!
もちろん、Metaの研究者たちも、SPIRIT LMにはまだ多くの改善が必要であることを認めています。例えば、SPIRIT LMは現在英語のみをサポートしており、将来的には他の言語への拡張が必要です。また、SPIRIT LMのモデル規模はまだ十分ではなく、将来的にはモデル規模を拡大し、モデルの性能を向上させる必要があります。
SPIRIT LMは、MetaによるAI分野における大きなブレークスルーであり、「感情表現豊かな」AIの世界への扉を開きました。近い将来、SPIRIT LMをベースにした多くの興味深いアプリケーションが登場し、AIが単に話すだけでなく、人間のように感情を表現し、より自然で親しみやすいコミュニケーションを私たちと行うことを期待しています!
プロジェクトアドレス:https://speechbot.github.io/spiritlm/