人工知能の世界において、大規模言語モデル(LLM)は自然言語処理(NLP)タスクを推進する重要な力となっています。しかし、これらのモデルが音声やテキストなどのクロスモーダルコンテンツを真に理解し、生成するためには、まだ長い道のりがあります。復旦大学(フーダン大学)の研究チームは、論文「SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities」において、革新的なソリューションであるSpeechGPTを提案しました。

image.png

SpeechGPTは、音声とテキストの両方を理解し、それらの間を自由に切り替えることができる新しいタイプの大規模言語モデルです。この技術の中核は、連続した音声信号を離散化し、テキストモーダルと統一することで、モデルに音声の認識と生成能力を持たせることです。

簡単に言うと、感情を認識して表現し、文脈と人間の指示に基づいて、様々なスタイルの音声応答を提供できます。ラップ、演劇、ロボット、コメディ、ささやきなど、SpeechGPTは必要に応じて適切なスタイルの音声を生成できます。これは、10万時間以上の学術的および野外で収集された音声データによるもので、これらのデータは豊富な音声シーンとスタイルを網羅しています。

SpeechGPTのトレーニングのために、研究チームは3段階のトレーニング戦略を採用しました。

  • モーダル適応事前学習:この段階では、モデルは大量の未ラベルの音声データを使用してトレーニングされ、次の離散ユニットを予測することで、音声モーダルに適応します。

  • クロスモーダル指示微調整:SpeechInstructデータセットを使用して、このデータセットには様々なタスクの指示が含まれています。この段階でモデルは、クロスモーダルの指示を理解し、実行する方法を学習します。

  • モーダルチェーン指示微調整:この段階では、モデルはさらに微調整され、モーダル間の変換能力が最適化されます。

SpeechGPTのトレーニングを支援するために、研究チームは大規模なクロスモーダル音声指示データセットSpeechInstructを構築しました。このデータセットには、クロスモーダル指示データとモーダルチェーン指示データが含まれており、様々なタスクタイプを網羅しています。

実験結果によると、SpeechGPTはテキストタスク、クロスモーダルタスク、口語会話タスクにおいて強力な能力を示しました。音声のテキストへの転写、テキストの音声への変換、口語会話など、様々な指示を正確に理解して実行できます。

注目すべきは、SpeechGPTは優れた能力を示していますが、音声認識のノイズ耐性と音声生成の音質の安定性にはまだ改善の余地があります。これらの課題は主に、計算資源とデータ資源の制約によるものです。現在、SpeechGPTは開発中であり、チームは今後、技術レポート、コード、モデルウェイトをオープンソース化する予定です。これにより、より広範な研究コミュニティがこの技術の更なる発展と改善に参加できるようになります。

プロジェクトページアドレス:https://top.aibase.com/tool/speechgpt2