InternViT-300M-448px-V2_5

Versión mejorada de InternViT-300M-448px, que mejora la capacidad de extracción de características visuales.

Producto ComúnImagenExtracción de características visualesAprendizaje multimodal
InternViT-300M-448px-V2_5 es una versión mejorada de InternViT-300M-448px. Mediante el aprendizaje incremental de ViT y la pérdida NTP (Etapa 1.5), se mejora la capacidad del codificador visual para extraer características visuales, especialmente en áreas con poca representación en conjuntos de datos web a gran escala, como datos de OCR multilingüe y gráficos matemáticos. Este modelo forma parte de la serie InternViT 2.5, manteniendo la misma arquitectura de modelo 'ViT-MLP-LLM' de sus predecesores e integrando un nuevo InternViT preentrenado incrementalmente con varios LLM preentrenados, como InternLM 2.5 y Qwen 2.5, utilizando un proyector MLP con inicialización aleatoria.
Abrir sitio web

InternViT-300M-448px-V2_5 Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

InternViT-300M-448px-V2_5 Tendencia de visitas

InternViT-300M-448px-V2_5 Distribución geográfica de las visitas

InternViT-300M-448px-V2_5 Fuentes de tráfico

InternViT-300M-448px-V2_5 Alternativas