InternViT-300M-448px-V2_5

InternViT-300M-448pxをベースとした強化版で、視覚特徴抽出能力を向上させています。

一般製品画像視覚特徴抽出多モーダル学習
InternViT-300M-448px-V2_5は、InternViT-300M-448pxをベースとした強化版です。ViT増分学習とNTP損失(Stage 1.5)を採用することで、特に大規模なウェブデータセットにおいて表現が不足している領域(多言語OCRデータや数学グラフなど)における視覚エンコーダによる視覚特徴抽出能力を向上させています。このモデルはInternViT 2.5シリーズの一部であり、前世代と同様の「ViT-MLP-LLM」モデルアーキテクチャを維持しつつ、新たに増分学習されたInternViTと様々な事前学習済みLLM(InternLM 2.5やQwen 2.5など)を統合し、ランダム初期化されたMLPプロジェクタを使用しています。
ウェブサイトを開く

InternViT-300M-448px-V2_5 最新のトラフィック状況

月間総訪問数

29742941

直帰率

44.20%

平均ページ/訪問

5.9

平均訪問時間

00:04:44

InternViT-300M-448px-V2_5 訪問数の傾向

InternViT-300M-448px-V2_5 訪問地理的分布

InternViT-300M-448px-V2_5 トラフィックソース

InternViT-300M-448px-V2_5 代替品