InternViT-300M-448px-V2_5
Versão aprimorada do InternViT-300M-448px, com capacidade aprimorada de extração de recursos visuais.
Produto ComumImagemExtração de recursos visuaisAprendizagem multimodal
InternViT-300M-448px-V2_5 é uma versão aprimorada do InternViT-300M-448px. Ao adotar o aprendizado incremental ViT e a perda NTP (Estágio 1.5), ele melhora a capacidade do codificador visual de extrair recursos visuais, especialmente em áreas sub-representadas em grandes conjuntos de dados de rede, como dados de OCR multilíngues e gráficos matemáticos. Este modelo faz parte da série InternViT 2.5, mantendo a mesma arquitetura de modelo 'ViT-MLP-LLM' de sua geração anterior, e integra o novo InternViT pré-treinado incrementalmente com vários LLMs pré-treinados, como InternLM 2.5 e Qwen 2.5, usando um projetor MLP inicializado aleatoriamente.
InternViT-300M-448px-V2_5 Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44