InternViT-300M-448px-V2_5

Versão aprimorada do InternViT-300M-448px, com capacidade aprimorada de extração de recursos visuais.

Produto ComumImagemExtração de recursos visuaisAprendizagem multimodal
InternViT-300M-448px-V2_5 é uma versão aprimorada do InternViT-300M-448px. Ao adotar o aprendizado incremental ViT e a perda NTP (Estágio 1.5), ele melhora a capacidade do codificador visual de extrair recursos visuais, especialmente em áreas sub-representadas em grandes conjuntos de dados de rede, como dados de OCR multilíngues e gráficos matemáticos. Este modelo faz parte da série InternViT 2.5, mantendo a mesma arquitetura de modelo 'ViT-MLP-LLM' de sua geração anterior, e integra o novo InternViT pré-treinado incrementalmente com vários LLMs pré-treinados, como InternLM 2.5 e Qwen 2.5, usando um projetor MLP inicializado aleatoriamente.
Abrir Site

InternViT-300M-448px-V2_5 Situação do Tráfego Mais Recente

Total de Visitas Mensais

29742941

Taxa de Rejeição

44.20%

Média de Páginas por Visita

5.9

Duração Média da Visita

00:04:44

InternViT-300M-448px-V2_5 Tendência de Visitas

InternViT-300M-448px-V2_5 Distribuição Geográfica das Visitas

InternViT-300M-448px-V2_5 Fontes de Tráfego

InternViT-300M-448px-V2_5 Alternativas