上海交通大学X-LANCE人工知能研究所とバイトダンスが共同開発したLSLM(Listen-Speak Language Model)全二重言語モデルは、AIアシスタントが会話中に聞きながら話すことを可能にし、真のリアルタイムインタラクションを実現します。

AIアシスタントと会話中に、重要な問題を思いついたとしましょう。AIアシスタントが話し終えるのを待つ必要はありません。すぐに話を中断して新しい質問をすることができます。AIアシスタントはそれをすぐに理解し、反応します。まるで人間と会話しているかのように自然でスムーズです。これはもはやSF映画のシーンではなく、現実のものとなっています。

image.png

LSLMの最大の利点は、「聞きながら話す」機能です。この革新的なモデルは、話しながら周囲の音声を聞くことができるだけでなく、リアルタイムの音声インタラクションをサポートし、騒音のある環境でも正常に動作します。聴覚と発話の2つのチャネルを巧みに統合することで、音声入力と音声出力の同時処理が可能です。

従来の音声言語モデル(SLM)は、交互の会話しかできず、実際の口語シーンにおける即時の割り込みには対応できません。LSLMの登場により、この課題が解決され、AIと人間の会話がより自然なものになりました。トークンベースのデコーダによるテキスト音声変換(TTS)システムと、ストリーミング自己教師あり学習(SSL)エンコーダを組み合わせることで、リアルタイムの自己回帰生成と会話ターン切り替え検出を実現しています。

研究チームは、早期融合、中期融合、後期融合の3つの戦略を検討し、中期融合が音声生成とリアルタイムインタラクションの最適なバランスを実現しました。コマンドベースのFDMと音声ベースのFDMの2つの実験設定を通じて、LSLMはノイズに対する高い耐性と多様な指示への高い感度を示しました。

さらに驚くべきことに、LSLMは二重通信機能を実現しながら、既存システムへの影響はごくわずかです。これは、既存のAIシステムにシームレスに統合でき、フレームワーク全体を完全に再構築することなく、ユーザーエクスペリエンスを大幅に向上させることを意味します。

LSLMの応用範囲は非常に広いです。家庭、オフィス、公共の場など、あらゆる場所で、会話システムは人間とより自然なリアルタイムコミュニケーションが可能になります。これは、機械とのコミュニケーション方法を変えるだけでなく、人間と機械のインタラクション全体の枠組みを再構築する可能性があります。

技術デモでは、研究チームは従来のTTSとLSLMのクリアな環境と騒音のある環境でのパフォーマンスを比較することで、LSLMの優位性を明確に示しました。また、音声言語モデルが単工、半二重から全二重へと進化してきた過程を図解することで、この技術的ブレークスルーの重要性をより直感的に理解できるようにしました。

LSLM技術の成熟に伴い、将来のAIアシスタントは、より豊かでスムーズで人間味のあるインタラクション体験をユーザーに提供すると期待できます。AIとの自然で途切れのない会話は、友人とのチャットと同じくらい簡単になるでしょう。

この研究は、学術的に重要な意味を持つだけでなく、音声インタラクション技術の商業応用にも新たな可能性を切り開きます。LSLMの登場は、私たちが新しいAIインタラクションの時代に入っていることを示しており、人間と機械の会話の境界はますます曖昧になり、技術と人間の融合は新たな高みに達するでしょう。

プロジェクトアドレス:https://top.aibase.com/tool/lslm