清華大学とテンセントが共同で全オープンソースのマルチモーダルアーキテクチャOryxを発表、超長尺ビデオ入力に対応

人工知能の急速な発展に伴い、ORYXというマルチモーダル大規模言語モデルが、AIによる視覚世界の理解能力に対する私たちの認識を静かに変えつつあります。清華大学、テンセント、南洋理工大学の研究者らが共同開発したこのAIシステムは、視覚処理分野の「トランスフォーマー」と言えるでしょう。

ORYX（Oryx Multi-Modal Large Language Modelsの略）は、画像、ビデオ、3Dシーンの时空理解を処理するために特別に設計されたAIモデルです。その最大の強みは、人間のように視覚的な内容を理解するだけでなく、内容間の関連性や背景にあるストーリーを洞察できる点にあります。

このAIシステムの大きな特徴は、任意の解像度の視覚入力に対応できる点です。ぼやけた古い写真から高解像度のビデオまで、ORYXは簡単に処理できます。これは、事前学習モデルOryxViTのおかげで、異なる解像度の画像をAIが理解できる統一された形式に変換できるためです。

さらに驚くべきことに、ORYXは動的な圧縮機能を備えています。長時間ビデオなどの入力に対しても、重要な内容を失うことなく情報をスマートに圧縮します。まるで分厚い本を内容豊かな付箋に凝縮するようなもので、核心情報を保持しつつ処理効率を大幅に向上させます。

ORYXの動作原理は、主に視覚エンコーダーOryxViTと動的圧縮モジュールの2つの主要なコンポーネントに依存しています。前者は多様な視覚入力を処理し、後者は長時間ビデオなど大容量データの高効率処理を保証します。

実際の応用において、ORYXは驚くべき可能性を示しています。ビデオの内容（オブジェクト、プロット、アクションなど）を深く理解できるだけでなく、3D空間における物体の位置や関係も正確に把握できます。この包括的な視覚理解能力は、将来の人と機械のインタラクション、スマート監視、自動運転などの分野に無限の可能性をもたらします。

特筆すべきは、ORYXが複数の視覚言語ベンチマークテストで優れた性能を示し、特に画像、ビデオ、多視点3Dデータの空間的および時間的な理解において、先進的な優位性を示していることです。

ORYXの革新性は、その強力な処理能力だけでなく、AIの視覚理解に新たなパラダイムを開拓した点にあります。ネイティブ解像度で視覚入力を処理し、同時に動的圧縮技術によって長尺ビデオを効率的に処理できるこの柔軟性と効率性は、他のAIモデルでは実現が困難です。

技術の進歩に伴い、ORYXは将来のAI分野でより重要な役割を果たすことが期待されます。それは機械が私たちの視覚世界をよりよく理解するのに役立つだけでなく、人間の認知過程のシミュレーションにも新たな視点を与える可能性があります。

論文アドレス:https://arxiv.org/pdf/2409.12961