この度、VITA-MLLMチームは、VITA-1.0をベースにマルチモーダルインタラクションのリアルタイム性と正確性を向上させたアップグレード版、VITA-1.5を発表しました。VITA-1.5は英語と中国語に対応しており、複数の性能指標において顕著な向上を実現し、よりスムーズなインタラクション体験を提供します。
VITA-1.5では、インタラクションの遅延が大幅に削減され、従来の4秒からわずか1.5秒に短縮されました。そのため、音声インタラクション時の遅延はほとんど感じられません。さらに、マルチモーダル性能も大幅に向上しており、MME、MMBench、MathVistaなどの複数のベンチマークテストにおける平均性能は59.8から70.8に向上しました。
VITA-1.5では音声処理能力も大幅に最適化されています。自動音声認識(ASR)システムのエラー率は18.4%から7.5%に大幅に低下し、音声指示の理解と応答がより正確になりました。同時に、VITA-1.5はエンドツーエンドのテキスト読み上げ(TTS)モジュールを導入しており、このモジュールは大規模言語モデル(LLM)の埋め込みを直接入力として受け入れるため、音声合成の自然さと一貫性を向上させます。
マルチモーダル能力のバランスを確保するため、VITA-1.5は漸進的なトレーニング戦略を採用しています。これにより、新たに導入された音声処理モジュールが視覚言語のパフォーマンスに与える影響を最小限に抑え、画像理解性能は71.3から70.8にわずかに低下しました。チームはこれらの技術革新を通じて、リアルタイムの視覚と音声インタラクションの限界をさらに押し広げ、将来のスマートインタラクションアプリケーションの基礎を築きました。
VITA-1.5の使い方としては、開発者は簡単なコマンドライン操作で簡単に始めることができ、基本的なインタラクションとリアルタイムインタラクションのデモが提供されています。リアルタイムインタラクション体験を向上させるために、音声アクティビティ検出(VAD)モジュールなどの必要なモジュールを用意する必要があります。さらに、VITA-1.5はコードをオープンソース化し、多くの開発者が参加して貢献できるようにします。
VITA-1.5の発表は、インタラクティブなマルチモーダル大規模言語モデル分野における重要な進歩を示しており、同チームの技術革新とユーザーエクスペリエンスへの絶え間ない追求を表しています。
プロジェクト入口:https://github.com/VITA-MLLM/VITA?tab=readme-ov-file
要点:
🌟 VITA-1.5はインタラクションの遅延を大幅に削減し、4秒から1.5秒に短縮することで、ユーザーエクスペリエンスを大幅に向上させました。
📈 マルチモーダル性能が向上し、複数のベンチマークテストにおける平均性能が59.8から70.8に向上しました。
🔊 音声処理能力が強化され、ASRのエラー率が18.4%から7.5%に低下し、音声認識の精度が向上しました。