GPT-4oレベル！VITA-1.5：リアルタイムなビジュアルと音声インタラクション、1.5秒のインタラクション遅延

この度、VITA-MLLMチームは、VITA-1.0をベースにマルチモーダルインタラクションのリアルタイム性と正確性を向上させたアップグレード版、VITA-1.5を発表しました。VITA-1.5は英語と中国語に対応しており、複数の性能指標において顕著な向上を実現し、よりスムーズなインタラクション体験を提供します。

VITA-1.5では、インタラクションの遅延が大幅に削減され、従来の4秒からわずか1.5秒に短縮されました。そのため、音声インタラクション時の遅延はほとんど感じられません。さらに、マルチモーダル性能も大幅に向上しており、MME、MMBench、MathVistaなどの複数のベンチマークテストにおける平均性能は59.8から70.8に向上しました。

VITA-1.5では音声処理能力も大幅に最適化されています。自動音声認識（ASR）システムのエラー率は18.4％から7.5％に大幅に低下し、音声指示の理解と応答がより正確になりました。同時に、VITA-1.5はエンドツーエンドのテキスト読み上げ（TTS）モジュールを導入しており、このモジュールは大規模言語モデル（LLM）の埋め込みを直接入力として受け入れるため、音声合成の自然さと一貫性を向上させます。

マルチモーダル能力のバランスを確保するため、VITA-1.5は漸進的なトレーニング戦略を採用しています。これにより、新たに導入された音声処理モジュールが視覚言語のパフォーマンスに与える影響を最小限に抑え、画像理解性能は71.3から70.8にわずかに低下しました。チームはこれらの技術革新を通じて、リアルタイムの視覚と音声インタラクションの限界をさらに押し広げ、将来のスマートインタラクションアプリケーションの基礎を築きました。

VITA-1.5の使い方としては、開発者は簡単なコマンドライン操作で簡単に始めることができ、基本的なインタラクションとリアルタイムインタラクションのデモが提供されています。リアルタイムインタラクション体験を向上させるために、音声アクティビティ検出（VAD）モジュールなどの必要なモジュールを用意する必要があります。さらに、VITA-1.5はコードをオープンソース化し、多くの開発者が参加して貢献できるようにします。

VITA-1.5の発表は、インタラクティブなマルチモーダル大規模言語モデル分野における重要な進歩を示しており、同チームの技術革新とユーザーエクスペリエンスへの絶え間ない追求を表しています。

プロジェクト入口:https://github.com/VITA-MLLM/VITA?tab=readme-ov-file

要点:

🌟 VITA-1.5はインタラクションの遅延を大幅に削減し、4秒から1.5秒に短縮することで、ユーザーエクスペリエンスを大幅に向上させました。

📈 マルチモーダル性能が向上し、複数のベンチマークテストにおける平均性能が59.8から70.8に向上しました。

🔊 音声処理能力が強化され、ASRのエラー率が18.4％から7.5％に低下し、音声認識の精度が向上しました。

AIニュース

GPT-4oレベル！VITA-1.5：リアルタイムなビジュアルと音声インタラクション、1.5秒のインタラクション遅延

AIbase基地

関連AIニュースの推奨

トレーニング不要！Q-FiltersによるKVキャッシュの高効率圧縮と推論性能向上

特大ニュース！スタンフォード大学などが共同でAIトレーニングの新手法S1を発表、コスト大幅削減＆性能向上！

Hugging Face、小型AIモデルを発表、デバイス性能向上に貢献

Mistral、AFPとコンテンツ提携し、チャットボット「Le Chat」の性能向上