InternViT-300M-448px-V2_5
InternViT-300M-448pxをベースとした強化版で、視覚特徴抽出能力を向上させています。
一般製品画像視覚特徴抽出多モーダル学習
InternViT-300M-448px-V2_5は、InternViT-300M-448pxをベースとした強化版です。ViT増分学習とNTP損失(Stage 1.5)を採用することで、特に大規模なウェブデータセットにおいて表現が不足している領域(多言語OCRデータや数学グラフなど)における視覚エンコーダによる視覚特徴抽出能力を向上させています。このモデルはInternViT 2.5シリーズの一部であり、前世代と同様の「ViT-MLP-LLM」モデルアーキテクチャを維持しつつ、新たに増分学習されたInternViTと様々な事前学習済みLLM(InternLM 2.5やQwen 2.5など)を統合し、ランダム初期化されたMLPプロジェクタを使用しています。
InternViT-300M-448px-V2_5 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44