Vista-LLaMA
視覚トークンと言語トークンの等距離関係を利用して、信頼性の高いビデオナレーションを実現します。
一般製品ビデオビデオ制作AIアニメーション制作
Vista-LLaMAは、ビデオ理解の向上を目指した高度なビデオ言語モデルです。視覚トークンと言語トークン間の均等な距離を維持することで、生成されるテキストの長さに関係なく、ビデオの内容と無関係なテキストの生成を削減します。この手法は、計算された視覚とテキストトークン間の注意重み付けにおいて相対位置エンコーディングを省略し、テキスト生成プロセスにおける視覚トークンの影響をより顕著にします。Vista-LLaMAは、順次視覚プロジェクターも導入しており、現在のビデオフレームを言語空間のトークンに投影することで、ビデオ内の時間的関係を捉えながら、視覚トークンの必要性を削減します。複数のオープンなビデオ質疑応答ベンチマークにおいて、このモデルは他の手法を大幅に上回る性能を示しています。