最近、テンセント優図研究所などの研究者らが、初のオープンソースのマルチモーダル大規模言語モデルVITAを発表しました。これは、ビデオ、画像、テキスト、オーディオを同時に処理でき、さらに、そのインタラクション体験も一流です。
VITAモデルの誕生は、大規模言語モデルにおける中国語方言処理の不足を補うためです。強力なMixtral8×7Bモデルをベースに、中国語の語彙を拡張し、バイリンガル指示微調整を行い、VITAは英語だけでなく、中国語も流暢に使えるようになりました。
主な特徴:
マルチモーダル理解:VITAは、ビデオ、画像、テキスト、オーディオを処理できます。これはオープンソースモデルとしては前例のないことです。
自然なインタラクション:「ねえ、VITA」と毎回言う必要はありません。話しかけるとすぐに反応し、他人と会話中でも、礼儀正しく、無闇に割り込みません。
オープンソースの先駆け:VITAは、オープンソースコミュニティがマルチモーダル理解とインタラクションにおいて踏み出した重要な一歩であり、今後の研究の基礎を築きます。
VITAの魔法は、その二重モデルの展開にあります。一つのモデルはユーザーの問い合わせへの応答を生成し、もう一つのモデルは環境入力の継続的な追跡を行い、毎回のインタラクションが正確かつ迅速に行われるようにします。
VITAはチャットだけでなく、フィットネス中の会話相手にもなり、旅行の際のアドバイスも提供できます。提供された画像やビデオの内容に基づいて質問に答えることもでき、強力な実用性を示しています。
VITAはすでに大きな可能性を示していますが、感情音声合成やマルチモーダルサポートなどの面では、絶えず進化を続けています。研究者らは、次世代のVITAがビデオとテキスト入力から高品質のオーディオを生成し、さらには高品質のオーディオとビデオを同時に生成する可能性を探求することを計画しています。
VITAモデルのオープンソース化は、技術の勝利であるだけでなく、インテリジェントなインタラクション方法に対する深い革新でもあります。研究が進むにつれて、VITAがよりインテリジェントで、より人間的なインタラクション体験をもたらすと確信しています。
論文アドレス:https://arxiv.org/pdf/2408.05211