先日、NVIDIAは新世代のオープンソース視覚言語モデル——NVILAを発表しました。これは正確性と効率性を最適化することを目的としており、優れた性能により、視覚AI分野のリーダーとなることを目指しています。

NVIDIAによると、NVILAは訓練コストを4.5倍削減し、微調整に必要なメモリを3.4倍削減、さらにプリフィリングとデコードの遅延をほぼ2倍削減しました。これらのデータは、別の巨大視覚モデルLLaVa OneVisionとの比較に基づいています。

image.png

ビデオベンチマークテストでは、NVILAはGPT4o Miniを上回り、GPT4o、Sonnet3.5、Gemini1.5Proとの比較でも優れた性能を示しました。さらに、Llama3.2との比較でも僅差で勝利を収めました。しかしながら、NVIDIAは現時点ではHugging Faceプラットフォームへのモデル公開は行っておらず、近いうちにコードとモデルを公開し、モデルの再現性を促進することを約束しています。

NVIDIAは、視覚言語モデルの訓練コストが非常に高いことを指摘しています。70億パラメータの視覚言語モデルの訓練には、約400個のGPU日が必要になります。同時に、このようなモデルの微調整もメモリを大量に消費し、70億パラメータのモデルには64GBを超えるGPUメモリが必要になります。

そのため、NVIDIAは「拡大してから圧縮する」という技術を採用し、モデルの正確性と効率性のバランスを取っています。このモデルは、写真やビデオのサイズを小さくすることで入力サイズを削減するのではなく、高解像度の画像やビデオの複数のフレームを使用することで、細部の情報損失を防いでいます。

image.png

圧縮プロセスでは、視覚情報をより少ないトークンに圧縮することで入力データのサイズを削減し、重要な情報を保持するためにピクセルをグループ化します。NVIDIAは論文の中で、解像度を2倍にすると視覚トークンの数が2倍になり、訓練と推論のコストが2倍以上増加すると述べています。そのため、空間/時間トークンの圧縮によってこのコストを削減しています。

NVIDIAはまた、モデルのデモ効果も示しており、NVILAは1枚の画像や1本のビデオに基づいて複数のクエリに回答できます。その出力結果は、以前NVIDIAが発表したVILA1.5モデルと比較されています。さらに、NVIDIAは動的S2拡張、DeltaLossベースのデータセットの剪定、FP8精度を使用した量子化など、他の技術についても詳しく説明しています。

これらの技術はすべて、80億パラメータのモデルに適用されており、詳細はArxivで確認できます。

論文へのリンク:https://arxiv.org/pdf/2412.04468

要点:

🌟 NVILAモデルは訓練コストを4.5倍削減し、視覚AIの効率性を向上させました。

📉 高解像度の画像とビデオフレームを使用することで、NVILAは入力情報の完全性を確保しています。

📊 NVIDIAは近いうちにコードとモデルを公開し、研究の再現性を促進することを約束しています。