最近、Meta AIチームは、長尺動画の言語理解能力向上を目指した、革新的な時空間適応圧縮メカニズムであるLongVUを発表しました。従来のマルチモーダル大規模言語モデル(MLLM)は、長尺動画処理においてコンテキスト長の制限に直面していましたが、LongVUはこの問題を解決するために開発されました。

LongVUの動作原理は、主に重複フレームのフィルタリングやフレーム間トークンの圧縮などの手法によりコンテキスト長を効率的に使用することで、動画の視覚的な詳細を維持しながら冗長情報を削減することにあります。

image.png

具体的には、チームはDINOv2の特徴を用いて、高度に類似した冗長フレームを除去します。次に、テキストガイド付きのクロスモーダルクエリを通じて、フレーム特徴を選択的に削減する効果を実現しています。

さらに、LongVUはフレーム間の時間依存性に対処するため、空間トークンの圧縮という革新的な圧縮戦略を採用しています。この戦略により、LongVUは限られたコンテキスト長内で大量のフレームを効率的に処理し、視覚情報の損失はほとんどありません。

様々な動画理解ベンチマークテストにおいて、LongVUは既存の手法を上回る性能を示しました。特に、VideoMMEやMLVUなど、1時間の長尺動画の理解が必要なタスクにおいて顕著です。リソースの少ないLLMでも優れた性能を発揮し、モデル規模も小さくなっています。

LongVUの応用例では、ユーザーは簡単な質問で動画の詳細な説明を得ることができます。「この動画の内容は?」という質問に対して、LongVUは動画内のシーン、登場人物、そして彼らの相互作用を正確に記述します。物体に関する簡単な質問から、複雑なプロットの説明まで、LongVUは迅速かつ正確にフィードバックを提供します。

公式例:

ユーザーのプロンプト:Please provide a detailed description of the video.

LongVUの回答:The video begins with a scene set in a futuristic cityscape at night, where a humanoid robot stands in the foreground, its back to the camera, against a backdrop of illuminated buildings and a helicopter in flight. The setting is characterized by a blend of modern and cyberpunk elements, with neon signs and a wet street reflecting the city lights. As the video progresses, the robot remains stationary, with the helicopter moving closer, eventually hovering above the street, indicating a possible interaction or event unfolding between the robot and the helicopter.

The scene then shifts to an interior setting, likely a workshop or garage, filled with various electronic equipment and machinery. The robot is now in the foreground, facing the camera, with a person in the background, suggesting a narrative progression. The environment is cluttered, with the lighting casting a blue hue over the scene, emphasizing the technological theme.

As the video continues, the camera angle changes to show the robot from behind, with the person in the background now more visible, indicating movement. The workshop setting remains consistent, with the clutter and electronic equipment unchanged. The lighting and color scheme continue to highlight the technological ambiance.

The perspective then shifts to a side view of the robot, revealing more of its structure and the cluttered workshop environment. The person in the background is now closer to the robot, suggesting interaction or movement towards it. The lighting and color scheme remain consistent, maintaining the technological atmosphere.

Finally, the camera zooms in on the robot, focusing on its upper body and the intricate details of its internal components. The cluttered workshop environment becomes less visible, with the lighting casting a blue hue over the scene, emphasizing the technological theme. The camera's close-up shot highlights the robot's design and the complexity of its internal mechanisms, suggesting a narrative focus on the robot's internal workings or its role within the technological setting.

長尺動画コンテンツの急速な増加に対応するには、より効率的な処理方法が必要です。LongVUの登場は、マルチモーダル理解分野に新たな可能性をもたらすと言えるでしょう。

プロジェクト入口:https://vision-cair.github.io/LongVU/

要点:

1. 📽️ LongVUは、長尺動画の言語理解能力向上を目指した、新しい時空間適応圧縮メカニズムです。

2. 🔍 この技術は、DINOv2の特徴を用いて冗長フレームを除去し、クロスモーダルクエリを通じて特徴を選択的に圧縮します。

3. 🚀 LongVUは、様々な動画理解ベンチマークテストで優れた性能を示し、特に長尺動画理解タスクにおいて他の手法を凌駕しています。